1.1.1.1 DEPARTAMENTO DE CIÊNCIAS E TECNOLOGIAS DA INFORMAÇÃO PRESERVAÇÃO DIGITAL DE LONGO PRAZO Estado da arte e boas práticas em repositórios digitais Maria de Lurdes Tainha Saramago Rodrigues (Licenciada em Línguas e Literaturas Modernas Variante Estudos Portugueses) Dissertação para a obtenção do Grau de Mestre em Estudos de Informação e Bibliotecas Digitais Orientador: Drª Fernanda Maria Guedes de Campos Co-Orientador: Prof. Doutor Pedro Faria Lopes Lisboa, 20 de Julho de 2003 AGRADECIMENTOS O meu primeiro e mais sentido agradecimento vai para a minha orientadora Sra. Dra. Fernanda Maria Guedes de Campos que de forma sábia me acompanhou ao longo da elaboração desta dissertação. Agradeço ainda ao Sr. Prof. Doutor Pedro Faria Lopes por ter aceite ser co-orientador da dissertação, pelos seus bons conselhos e orientações finais. Agradeço à minha família pela paz de espírito que me proporcionou durante estes dois anos de trabalho intenso e em especial ao meu marido pela sua presença e apoio, muitas vezes técnico. Agradeço às minhas colegas Dra. Isabel Goulão e Dra. Margarida Meira pela companhia e amizade constantes. Agradeço também ao meu colega Dr. Paulo Leitão pela paciência de me ter ouvido e pelas boas sugestões que me apresentou. i “… much as monks of times past, it falls to librarians and archivists to hold to the tradition which reveres history and the published heritage of our times” Terry Kuny, 1998 ii RESUMO Aborda-se o estado da arte da preservação de recursos digitais na perspectiva da sua preservação de longo prazo. São enunciadas as práticas e as diversas metodologias tidas actualmente como as mais adequadas para se obviar à fragilidade física dos suportes e à vulnerabilidade do meio digital, assim como a perdas inerentes à preservação de recursos nos mais diversos meios e formatos. A recolha e selecção de recursos a preservar são também pontos que desenvolvemos. Coligimos exemplos reais que espelham as abordagens das comunidades que consideramos mais avançadas nesta matéria. São focados os aspectos tecnicamente mais inovadores do ponto de vista da utilização de metadados e a sua relação com as diversas estratégias implementáveis, nomeadamente a emulação, a migração, a encapsulação, a aplicação do UVC (Universal Virtual Computer) e o XML. São ainda referidas as boas práticas quanto a metadados de preservação e são integrados alguns esquemas que confirmam o acompanhamento das respectivas comunidades em que se inserem, as quais partem de um esquema padrão que elegem, e evoluem numa perspectiva de adaptação ao próprio ambiente. A metodologia de implementação de repositórios digitais à qual nos dedicámos é baseada no modelo de referência OAIS desenvolvido no âmbito da NASA. Este modelo encontra-se em vias de ser implementado pelos repositórios digitais mais relevantes à escala global. Verificámos que a comunidade CEDARS é aquela que, dadas as suas características pode servir de modelo. No seguimento desta investigação simulámos um conjunto de metadados preparado para ajustar ao OAIS na forma de um pacote de informação para depósito passível de ser adaptado a uma comunidade com características similares às da comunidade nacional. Acrescentámos de forma sistematizada as boas práticas que devem ser mantidas pelas instituições que pretendem implementar repositórios ou bibliotecas digitais. Palavras chave : Preservação digital; Boas práticas; Metadados; Estratégias de preservação; Migração; Emulação; OAIS iii iv ABSTRACT The long-term digital preservation is focused paying special attention to the state of the art of the practices and methodologies that can tackle the physical fragility of supports and the vulnerability of the digital environment. The minimization of information loss during the preservation process through the various formats and platforms is addressed. The selection of resources to preserve is pointed out, as well as real life cases depicted from the most up-to-date approaches of several communities. We have stressed the most promising techniques of metadata usage and their relationship with the various strategies available, e.g. emulation, migration, encapsulation, “Universal Virtual Computer” and XML. The good practices of preservation metadata are stressed alongside some metadata schema. The digital repositories methodology that we have adopted is based upon the OAIS reference model developed within NASA. This model is about to be implemented by the world most relevant digital repositories. We have studied with care the most important digital preservation communities in the world and we have considered the CEDARS community as it is one that can be looked as a standard. On the aftermath of our investigation we have simulated a subset of metadata to be implemented within the OAIS model in the form of a deposit information package. The area of application should be the national community. We have included, in a systematic way, the good practices that must be object of maintenance by the various institutions that want to implement digital repositories and digital libraries. Keywords : Digital preservation; Good practices; Metadata; Preservation strategies; Migration; Emulation; OAIS v vi ÍNDICE RESUMO ............................................................................................................ iii ABSTRACT........................................................................................................... v 1. INTRODUÇÃO................................................................................................... 1 1.1. DELIMITAÇÃO DO TEMA .............................................................................. 1 1.2. MOTIVAÇÃO PARA A ESCOLHA DO TEMA........................................................ 6 1.3. APRESENTAÇÃO DO PROBLEMA E DOS SEUS PONTOS CHAVE ........................... 7 1.4. QUESTÕES FUNDAMENTAIS ......................................................................... 9 1.5. OBJECTIVOS ............................................................................................ 12 2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS...................................... 15 2.1. CARACTERÍSTICAS DE UMA BIBLIOTECA DIGITAL ......................................... 16 2.2. A PRESERVAÇÃO DOS RECURSOS E A GESTÃO DAS BIBLIOTECAS DIGITAIS .... 17 2.2.1. Alguns aspectos tecnológicos básicos das bibliotecas digitais..................... 17 2.2.2. A tecnologia do acesso ....................................................................... 19 3. QUADRO TEÓRICO DE REFERÊNCIA................................................................... 23 3.1. A PRESERVAÇÃO DA MEMÓRIA DOS POVOS ................................................. 23 3.2. O PAPEL DAS INSTITUIÇÕES PATRIMONIAIS ................................................ 26 3.2.1. Os recursos digitais e o depósito legal ................................................... 28 3.2.2. Modo de aquisição dos recursos ............................................................ 30 3.3. CARACTERIZAÇÃO DO AMBIENTE TECNOLÓGICO .......................................... 32 3.3.1. Características dos recursos ................................................................. 32 3.3.2. Características dos suportes de armazenamento dos recursos ................... 33 3.3.3. Obsolência dos dispositivos de leitura .................................................... 37 vii 3.4. CICLO DE VIDA DOS RECURSOS DIGITAIS................................................... 37 3.4.1. Criação dos recursos........................................................................... 37 3.4.2. Selecção dos recursos ......................................................................... 38 3.4.3. Identificação persistente dos recursos ................................................... 40 3.4.4. Descrição e acesso dos recursos ........................................................... 42 3.4.5. Armazenamento dos recursos .............................................................. 42 3.4.6. Preservação de longo prazo e recuperação da informação ........................ 43 3.5. INTEGRIDADE, AUTENTICIDADE E AUTENTICAÇÃO DE RECURSOS DIGITAIS .... 44 3.5.1. Integridade ....................................................................................... 44 3.5.2. Autenticidade..................................................................................... 46 3.5.3. Autenticação...................................................................................... 49 3.6. ESTRATÉGIAS DE PRESERVAÇÃO DIGITAL ................................................... 54 3.6.1. Preservação tecnológica e impressão em papel ....................................... 55 3.6.3. Emulação .......................................................................................... 56 3.6.4. Migração ........................................................................................... 57 3.6.5. Encapsulação ..................................................................................... 59 3.6.6. Software Máquina Virtual (UVC - Universal Virtual Computer) ................... 59 3.6.7. XML (Extensible Markup Language)....................................................... 60 3.7. METADADOS DE PRESERVAÇÃO DE LONGO PRAZO ....................................... 62 3.7.1. Comunidades temáticas e respectivas necessidades de metadados ............ 65 3.7.2. Sistemas de metadados aplicáveis à preservação digital........................... 67 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL.............. 71 4.1. CONFIABILIDADE DE UM REPOSITÓRIO DIGITAL .......................................... 71 4.1.1. As questões legais .............................................................................. 72 4.1.2. As questões financeiras ....................................................................... 73 4.1.3. A gestão do risco................................................................................ 75 4.1.4. As garantias de acesso continuado aos recursos digitais........................... 78 4.1.5. O Modelo de referência OAIS ............................................................... 80 viii 4.2. AS GRANDES OPÇÕES DE PRESERVAÇÃO..................................................... 88 4.2.1. Internet Archive ................................................................................. 88 4.2.2. NEDLIB - Networked European Deposit Library ....................................... 89 4.2.3. CEDARS (CURL Exemplars in Digital Archives) ........................................ 92 4.2.4. PANDORA (Preserving and Accessing Networked Documentary Resources of Australia) .......................................................................................... 94 4.2.5. OCLC/RLG Working Group on Preservation Metadata................................ 95 4.2.6. FEDORA (Flexible Extensible Digital Object and Repository Architecture) .................................................................................... 97 4.3. A MOTIVAÇÃO PARA A UTILIZAÇÂO DO MODELO DE REFERÊNCIA OAIS ........... 98 4.3.1. Os interesses das potenciais comunidades utilizadoras ............................. 98 4.3.2. Simulação de uma matriz de metadados de preservação ........................ 125 4.4. OS REPOSITÓRIOS DIGITAIS E A DESCOBERTA E CAPTURA DE METADADOS .. 126 4.4.1. O OAI-PMH (Open Archives Inititative Protocol for Metadata Harvesting) .. 126 4.4.2. O exemplo do serviço de acesso do Projecto FEDORA............................. 127 4.5. BOAS PRÁTICAS DE PRESERVAÇÃO RECOMENDADAS NA IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL ........................................................................... 128 5. CONCLUSÃO ................................................................................................ 133 BIBLIOGRAFIA ................................................................................................. 139 ANEXO 1 – SIMULAÇÃO DE MATRIZ DE METADADOS DE PRESERVAÇÃO ANEXO 2 – GLOSSÁRIO ANEXO 3 – SIGLAS E ACRÓNIMOS ANEXO 4 – SÍTIOS RECOMENDADOS NA ÁREA DA PRESERVAÇÃO DIGITAL ix 1. INTRODUÇÃO 1. INTRODUÇÃO 1.1. DELIMITAÇÃO DO TEMA Em 1986 J. M. Dureau e D. W. G. Clements1 no âmbito da IFLA (International Federation of Library Association) definiam a preservação de espécies bibliográficas como : “Preservação engloba todos os aspectos financeiros e de gestão incluindo a armazenagem em todos os seus aspectos, questões de pessoal, política, técnicas e métodos envolvidos na preservação das espécies bibliográficas e a informação que elas contenham” Nesta definição apontam-se dois grandes objectivos, sendo um a preservação do conteúdo intelectual da informação, transferindo-o de um para outro suporte, p. ex. papel para microfilme e o outro a preservação da integridade física original da espécie bibliográfica tão intacta e utilizável quanto possível. Como nem todas as bibliotecas ou arquivos teriam condições nem manifesto interesse para assegurar a integridade física de todas as espécies que possuíam, deveria ser estabelecida, no âmbito da gestão de colecções, uma política de prioridades. Estes conceitos, mantêm actualidade para documentos que não são exclusivamente livros e manuscritos mas também filmes, fotografias, gravuras, mapas, registos de som e imagem, etc. Em Portugal, Luísa Cabral (1998)2 manifesta a sua preocupação ao constatar que no virar do século XX as bibliotecas e arquivos portugueses ainda não encararam com conhecimento de causa e seriedade a extensão do problema que têm em mãos, dado que o estado das colecções nunca foi diagnosticado. Não existem, de facto, práticas instaladas de gestão das colecções onde se insira a selecção dos documentos a preservar, uns pela simples transmissão do conteúdo intelectual, DUREAU, J. M., CLEMENTS, D. W. G. (1992) - Princípios para a preservação e conservação de espécies bibliográficas. – Edição em língua portuguesa por Maria da Conceição Casanova, Maria Fernanda Casaca Ferreira, Maria Luísa Macedo. Lisboa : Biblioteca Nacional. 2 CABRAL, Maria Luísa (1998) – Microfilmagem e digitalização : a coexistência pacífica. Páginas a & b, 2, p. 41-52 1 1 1. INTRODUÇÃO outros ainda acrescentando o valor do artefacto, e outros unicamente pelo valor do artefacto. No que diz respeito aos recursos digitais, não obstante as enormes barreiras a ultrapassar, particularmente nos campos económico e financeiro devido aos custos altos que acarreta, preservar e facilitar o acesso aos recursos electrónicos a longo prazo tornou-se um objectivo que deve ser inscrito no plano de gestão de colecções das bibliotecas digitais, para que a persistência a longo prazo do acesso aos recursos possa ser efectivamente gerida e monitorizada. É que, no domínio digital e ao contrário do recurso em papel, a informação e o seu suporte são muito mais perecíveis e voláteis. Em ambiente arquivístico propriamente dito estes factores são normalmente objecto de legislação específica para evitar a perda irremediável de informação. A criação e desenvolvimento de uma colecção, digital ou tradicional deve, por conseguinte, submeter-se a alguns parâmetros, tais como : 1) Missão da instituição e da biblioteca detentoras dos recursos 2) Estratégia e política de desenvolvimento das colecções 3) Caracterização da própria colecção articulando as necessidades de potenciais utilizadores com os limites temáticos e também com compromissos em termos de cooperação com outras instituições e bibliotecas. É indispensável a existência de um documento escrito que explicite a política de desenvolvimento das colecções e dele devem constar: 1) Uma introdução com enquadramento e âmbito da política de desenvolvimento 2) As missões da instituição e da biblioteca e o resumo das necessidades e prioridades 3) Parâmetros das colecções: grupos de utilizadores, programas e requisitos, limites genéricos dos temas, inclusões e exclusões em termos gerais, compromissos de cooperação, etc. A estes pontos devem ser acrescentados outros relacionados com necessidades de preservação a fim de obviar a perdas irrecuperáveis. É o caso da selecção, ponto fulcral no ciclo de vida dos recursos digitais a preservar, que deve estar inscrita no âmbito da gestão de colecções. 2 1. INTRODUÇÃO Infelizmente não existem ainda ferramentas electrónicas de selecção que possam substituir o elemento humano de forma eficaz durante esta fase. O lado positivo da questão é que o desempenho humano vem acrescentar qualidade e consistência à decisão sobre as colecções a preservar. Atendendo à orientação do trabalho que nos propomos apresentar, deixando de lado os aspectos da preservação dos documentos com suporte físico, é necessário atingir e ultrapassar uma nova meta com base em aspectos tecnológicos, dadas as especificidades dos documentos enquanto unicamente digitais. As tecnologias introduzem factores de mudança na arquitectura dos recursos digitais com repercussões ao nível dos serviços a desenvolver, tais como a pesquisa, a recuperação ou a preservação dos recursos. Surgem dificuldades de preservação que podemos considerar diferentes e novas, que dizem respeito ao ambiente de mudança permanente, à obsolência tecnológica, à vulnerabilidade do ambiente digital, etc. Os factores mais preocupantes da era digital, que assustam pelos riscos que acarretam são: 1) A natureza efémera dos recursos digitais a) Efémera para os suportes de armazenamento Discos, bandas, etc, cujos formatos podem ser substituídos e se tornam obsoletos (caso, p. ex., das disketes de 5 ¼” substituídas pelas de 3,5” ainda há relativamente poucos anos). A deterioração dos suportes pode também constituir um alto factor de risco se a exposição ao calor, humidade, calamidades ou actos terroristas, não for acautelada. b) Efémera para as tecnologias de armazenamento - Sistemas operativos e software que aparecem com novas versões em espaços de tempo muito curtos dando origem a ambientes hostis, onde os recursos deixam de ser reconhecidos à medida que envelhecem; - Para os formatos dos ficheiros ou esquemas de compressão com base em sistemas proprietários. c) Efémera devido ao fraco envolvimento institucional e à ausência de políticas e procedimentos de preservação definidas para o efeito. 3 1. INTRODUÇÃO 2) A dependência da tecnologia É impossível ter acesso a recursos digitais sem assegurar a existência de sistemas de hardware e software compatíveis pois ao contrário do documento impresso, o documento electrónico para ser lido necessita de apoio tecnológico. A combinação destes factores torna impossível a sobrevivência dos recursos digitais sem uma atenção constante. Um texto digital não pode ser deixado ao abandono durante anos e voltar a ser lido sem intervenção humana. Os meios de edição e impressão estão relativamente normalizados à escala internacional. Um físico na Finlândia e um poeta em Portugal esperam que a sua produção científico/cultural mantenha a sua integridade no essencial. Já o ambiente digital proporciona variantes dos recursos digitais e encoraja grupos diferentes a prosseguir diversos objectivos e normas. Acrescente-se ainda vários tipos de recursos e vários tipos de hardware e software que as diversas disciplinas podem produzir e para os quais se espera que sejam preservados. Todas as variáveis devem, pois, ser equacionadas face à mudança tecnológica: a) A rapidez da mudança é uma característica das tecnologias da informação digital. Esta rapidez significa que todos os passos dados na busca da estabilidade e permanência estão também em risco de se tornarem obsoletos, até mesmo antes de serem adoptados. b) Os regimes de propriedade intelectual encorajam privatizações de vários tipos, incluindo a restrição do acesso à informação, p. ex., através da criação de sistemas proprietários que permitem encriptar e esconder a informação a utilizadores que não estão autorizados a aceder ao sistema, até que a informação perca o seu valor comercial. c) A quantidade de trabalho criado na forma digital ameaça ultrapassar as nossas práticas tradicionais de gestão. d) O conjunto dos factores já apresentados ameaça atingir custos de gestão imprevisíveis. e) Finalmente, a efemeridade da natureza dos meios de armazenamento e transmissão impõe a maior urgência na tomada de medidas. Contra esta lista de tendências impõe-se uma enorme expectativa. Existem padrões comportamentais na comunidade das bibliotecas e também na editorial no que diz respeito à 4 1. INTRODUÇÃO preservação, permanência, e difusão. Estes valores emergem com grande vitalidade perante os riscos envolvidos na instabilidade do ambiente digital. Face aos novos desafios colocados pela Internet que, de igual modo, facilitam os acessos e os contactos entre instituições congéneres, é fundamental ou mesmo condição de sobrevivência pensar em termos de cooperação entre arquivos, bibliotecas, museus, grandes editores, produtores de informação em geral, criadores de software, etc. Os altos custos a ultrapassar, por um lado, e a distribuição generalizada dos recursos em redes, por outro, facilitam a emergência de parcerias. A título de exemplo podemos referir a utilização do modelo de referência OAIS (Open Archive Information System) criado sob os auspícios da NASA (National Aeronautics and Space Administration) pelo CCSDS (NASA Consultative Committee for Space Data Systems) que será desenvolvido em detalhe no ponto 4.1.5. Os projectos de preservação digital CEDARS (Curl Exemplars in Digital Archives Project), PANDORA (Preserving and Accessing Networked DOcumentary Resources of Australia) e NEDLIB (Networked European Deposit Library) adoptaram este modelo de referência e podemos considerá-los verdadeiras instituições virtuais de partilha de recursos, tanto no campo tecnológico como na gestão do conhecimento. Para fazer face aos elevados custos da preservação deve, portanto, pré-existir discussão e consenso ao mais alto nível das instituições que pretendam levar a cabo a criação de repositórios digitais. Entenda-se aqui por repositórios digitais, arquivos ou bibliotecas digitais que decidiram manter e preservar os próprios recursos ou ainda com a capacidade de armazenar recursos alheios, acessíveis ou não a utilizadores externos. Os resultados dos projectos implementados devem estar documentados de forma transparente e ser amplamente divulgados. No seguimento de trabalho pluridisciplinar devem surgir linhas orientadoras de selecção de recursos. A título de exemplo, podemos referir-nos às linhas orientadoras da Biblioteca Nacional do Canadá e também da Biblioteca Nacional da Austrália. Durante a selecção dever-se-á verificar se os recursos digitais a preservar são cópias de documentos com existência física ou nascidos digitais. A sua forma original poderá influenciar as opções de selecção para preservação, tendendo a deixar para um segundo plano, as cópias de documentos com existência física que não estão em risco de desaparecimento ou não têm valor acrescentado pelo suporte físico. Os recursos nascidos digitais ao serem sujeitos ao crivo da selecção, terão à partida o seu suporte electrónico como alerta para um possível desaparecimento. 5 1. INTRODUÇÃO No decurso deste trabalho vamos procurar: 1. Abordar a perspectiva da criação de bibliotecas digitais e das opções de gestão da preservação, assumidas com vista a prevenir o desaparecimento dos recursos a longo prazo. 2. No âmbito do quadro teórico de referência, fazer o ponto da situação da preservação digital a nível mundial. 3. Discutir as estratégias a implementar com vista a ultrapassar os problemas da obsolência tecnológica. 4. Ir ao encontro das boas práticas utilizadas e dos sistemas de metadados de uso mais corrente utilizando, como metodologia, o benchmarking. Os projectos seleccionados para comparação são o CEDARS, o PANDORA, o NEDLIB e o OCLC/RLG-WG. 5. Simular uma matriz de metadados adaptada a uma determinada comunidade de utilizadores. 6. Enumerar as boas práticas conducentes à eficaz implementação de um repositório digital confiável. 1.2. MOTIVAÇÃO PARA A ESCOLHA DO TEMA A motivação para a escolha do tema e do problema desta dissertação surge da experiência do exercício profissional de bibliotecária. A conservação e preservação de documentos é uma disciplina querida dos profissionais da documentação em geral, bibliotecários ou arquivistas e alicerça-se em épocas distantes, com muitos séculos de permeio. Com a emergência das novas tecnologias e a utilização alargada da Internet surgem elementos novos, como a possibilidade de gerar e difundir recursos criados em computador baseados em múltiplos meios, aos quais chamamos multimedia digital e surge também, a possibilidade de digitalizar documentos em suporte papel, documentos sonoros, artefactos museológicos, etc. Estes recursos, uns nascidos digitais, outros cópias de documentos com existência física, dadas as suas características, possuem enormes potencialidades do ponto de vista da difusão e acesso à informação e ao conhecimento, mas possuem também alguns factores de alto risco para a sua sobrevivência a longo prazo. Estes serão detalhadamente estudados ao logo desta dissertação. 6 1. INTRODUÇÃO Diz-nos Fernanda Campos em intervenção no Congresso da BAD (Associação Portuguesa de Bibliotecários Arquivistas e Documentalistas) de 20013 que: “Uma das mais importantes qualidades da informação em formato digital consiste no facto de não ser fixa pela sua própria natureza, ao contrário do que sucede com os textos impressos. Os textos digitais não são finais nem finitos nem são fixos, quer na essência quer na forma (...)” Por um lado, nós, bibliotecários, lidamos com ferramentas electrónicas que aumentam a capacidade de gerir o conhecimento, de forma a que a difusão da informação se alargue a um número de utilizadores da vez maior, não só da nossa comunidade mas de comunidades à escala planetária. Por outro, corremos o risco de perder todas as mais valias acrescentadas pelo nosso trabalho, assim como os recursos digitais propriamente ditos devido à vulnerabilidade do ambiente digital e à obsolência tecnológica. É o elevado sentido do risco de perda que nos dá a motivação para nos dedicarmos a esta investigação sobre preservação de recursos digitais a longo prazo. 1.3. APRESENTAÇÃO DO PROBLEMA E DOS SEUS PONTOS CHAVE O problema que iremos explorar ao longo deste trabalho de tese é muito complexo e diz respeito à preservação de recursos digitais, nomeadamente quando vista sob a perspectiva biblioteconómica, isto é, pelo gestor de colecções. Tencionamos abordá-lo pelas seguintes vertentes: a) Deterioração e obsolência de hardware e suportes de armazenamento - Qualquer peça de hardware deteriora-se com o tempo, por vezes até ao ponto de já não poder voltar a ser usada. Mas é acima de tudo a sua desactualização / obsolência e não a sua deterioração que preocupa os responsáveis pela preservação dos recursos digitais. - A longevidade dos suportes de armazenamento é outra variável a ter em conta. A titulo exemplificativo referimos que se estima que a duração de uma banda magnética seja de 10 a 20 anos4 e que a de um CD-ROM seja de 50 a 100 anos. Enumeraremos estas referências no ponto 3.3.2 assim como outras, relativas a outros suportes. 3 4 CAMPOS, Fernanda Maria (2001) – Bibliotecas digitais : uma nova perspectiva de valorização e acesso ao património cultural. In: Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas. Porto, 2001. Aschenbrenner, A. (2001) - Long-term preservation of digital material : building an archive do preserve digital cultural heritage from the Internet. Institut für Softwaretechnik und Interaktive Systeme der Technischen Universität Wien 7 1. INTRODUÇÃO b) Obsolência de software Preservar o fluxo de bites, não garante que a informação seja preservada. É necessário software que a leia de forma inteligível. Essas peças de software são desenvolvidas de modo contínuo por parte dos produtores comerciais de software ou mesmo em instituições sem fins lucrativos. Assiste-se, por este motivo a uma frenética aparição de produtos novos, ou novas versões, que tomam conta do mercado e obrigam a actualizações no seio dos próprios repositórios que estão destinados a receber e armazenar recursos a longo prazo. c) Boas práticas usadas na criação e manutenção dos recursos digitais O conceito “boas práticas” é encarado neste trabalho essencialmente como criação de metadados. Em Borbinha (2001)5 encontramos a seguinte definição para metadados: “informação estruturada sobre ou representativa de um recurso (documento ou obra em geral)”. A normalização nesta área do conhecimento tem sido objecto de estudo alargado e este mesmo trabalho dá-nos uma comparação entre biblioteca tradicional e biblioteca digital bem como a caracterização dos metadados relacionados. Mais à frente nesta tese abordaremos de modo detalhado o assunto metadados, no entanto podemos desde já acrescentar que: A gestão efectiva da preservação digital é facilitada pela criação, manutenção e evolução de metadados de apoio à preservação. Estes podem documentar os processos técnicos associados à preservação, especificar os direitos da gestão da informação e estabelecer a autenticidade dos conteúdos digitais. Diversas iniciativas foram desenvolvidas no que diz respeito a metadados para preservação. Estes desenvolvimentos, existem de forma independente e respondem a necessidades particulares de instituições e projectos. Existem pontos comuns, mas também muitas diferenças. A uns e a outros nos referiremos ao longo do desenvolvimento do trabalho. Iniciativas tais como o Dublin Core Metadata Initiative (DCMI) demonstram o valor do consenso no campo das boas práticas a implementar. Dentro 5 BORBINHA, J. (2001) - Metadata: conceito e sua relevância para as bibliotecas. In : Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, 7º, Porto, 2001. 8 1. INTRODUÇÃO deste espírito a OCLC/RLG Working Group em metadados de preservação6 (Online Computer Library Center/ Research Libraries Group) foi criada para iniciar um processo de construção consensual de metadados para preservação d) Confiabilidade de um repositório digital A preservação a longo prazo, em larga escala, capaz de responder às necessidades dos investigadores e académicos do futuro, carece de infra-estruturas profundas, capazes de suportar sistemas distribuídos de repositórios digitais. Um dos pontos críticos para a criação de infra-estruturas de repositórios digitais é a inexistência de número suficiente de organizações avalizadas, capazes de armazenar, migrar e assegurar o acesso às colecções digitais. Neste contexto, um elemento da maior importância será a existência de um processo de certificação de repositórios digitais que assegure um clima de segurança no que diz respeito ao futuro da preservação digital. O problema no caso português surge quando : Instituições que se lançam na criação de bibliotecas digitais estão apenas parcialmente habilitadas à passar à sua concretização, tanto do ponto de vista de conhecimentos teóricos como tecnológicos. A vertente preservacionista é simplesmente ignorada. Ressalvamos o caso da manutenção e permanência dos recursos, que ao longo do tempo tem vindo a sensibilizar as instituições e mesmo os particulares. A preservação de recursos digitais é pois, um assunto que deve ser encarado como sendo de importância estratégica nacional, sob pena de vermos desaparecer pedaços da nossa História. 1.4. QUESTÕES FUNDAMENTAIS Ao longo desta tese tentaremos aprofundar algumas questões por nós consideradas fundamentais. 6 OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital objects: a review of the state of the art: a white paper. http://www.oclc. org/ digitalpreserva- 9 1. INTRODUÇÃO a) A preservação da memória dos povos Conscientes que estamos do crescimento acelerado da criação de recursos digitais à escala planetária e consequente proliferação destes através de redes, tais como, Internet, Intranet, Extranet, etc, e também conscientes da vulnerabilidade do ambiente digital, surgemnos as seguintes questões : - A produção intelectual dos dias de hoje, nascida digital, estará em dias futuros mais ou menos longínquos, depositada em repositórios digitais confiáveis e bem protegidos? Ou desaparecerá, deixando as nações irremediavelmente empobrecidas? b) A preservação de recursos digitais Com o surgimento da tecnologia digital muitos criadores produzem directamente em computadores. Alguma dessa informação pode ser impressa, mas a maior parte, com ênfase em bases de dados, recursos multimedia, informação geográfica, páginas da Internet, etc., existe unicamente em formato digital, ainda com a possibilidade da existência simultânea de formatos diversos no mesmo recurso e de versões diferentes do seu conteúdo. Surgenos de imediato a questão da selectividade. - Será que toda essa informação é importante para o futuro ? - Que herança vamos deixar ? - Quem decide que recursos preservar perante o cenário preocupante da questão anterior ? - Os responsáveis pelas unidades documentais? - Os profissionais da informática? - Os decisores políticos? c) Sensibilização para a criação de bibliotecas digitais Uma biblioteca digital é uma colecção de recursos electrónicos de informação proveniente de uma variedade de fontes, incluindo a Web. Fisicamente, uma biblioteca deste tipo aparece como um sítio Web ou uma compilação de ligações a sítios num ou mais servidores que podem ser acedidos através da Internet (Kovaks, 2000)7. Manter uma biblioteca digital é um compromisso entre a gestão da qualidade das colecções e a administração dos sítios na Web. 7 tion/presmeta_wp.pdf. (acedido em 16.01.2002) KOVACS, Diane K , ELKORDY, Angela (2000) – Collection development in ciberspace. Library Hi Tech, 18 (4), p. 335-359. 10 1. INTRODUÇÃO - Quais os factores que devem ser tidos em consideração pelos intervenientes na criação de bibliotecas digitais quanto à manutenção dos conteúdos e sua preservação a longo prazo? d) Estratégias de preservação A preservação de recursos digitais consiste numa mediação técnica entre o objecto e a informação que veicula (Lupovici, 2001)8. Num contexto tradicional, não digital, a simples preservação do objecto físico, p. ex., um livro constitui o essencial do trabalho e ao mesmo tempo são conservados alguns dados (ou metadados) sob a forma de catálogos, onde se descreve o conteúdo da obra e a sua contextualização. Temos também o exemplo mais recente de documentos sonoros analógicos para os quais existe a necessidade de mediação técnica de um aparelho que transforme uma vibração física em ondas sonoras e para o qual as características técnicas de transformação mudaram com o desaparecimento de materiais substituídos por outros de novas gerações incompatíveis. Neste último caso, a preservação concentra-se no suporte e na obsolência do material que o constitui. Haverá que transferi-lo para novos suportes compatíveis com os materiais em uso. No contexto informático, as soluções existentes passíveis de implementação, migração de dados ou emulação de máquinas e sistemas operativos, entre outras, incidem ou sobre os dados ou sobre as tecnologias envolventes. Que estratégias implementar ? - Preservação tecnológica ? - Migração ? - Emulação ? - Encapsulação ? - XML ? e) A necessidade da existência de boas práticas A existência de boas práticas é uma necessidade imperiosa para atingir a preservação e recuperação da informação tal qual ela foi produzida. 8 LUPOVICI, Catherine (2001) – Les besoins et les données techniques de préservation. 67th IFLA Council and General Conference, Boston, 2001 11 1. INTRODUÇÃO Em ambiente digital os recursos são mutáveis, por este motivo deve ser mantido ao longo do tempo um historial por forma a garantir as suas qualidades de autenticidade e integridade (Lupovici, 1998)9. As tecnologias de acesso aos recursos digitais rapidamente se tornam obsoletas e por isso haverá que encapsular juntamente com o recurso informação acerca do hardware, do sistema operativo e respectivo software usados para o criar. Os metadados de preservação devem ser usados para: Armazenar informação técnica sobre decisões e acções de preservação; Documentar estratégias de conversão de dados; Registar os efeitos das estratégias de conversão de dados; Assegurar a autenticidade dos recursos digitais ao longo do tempo; Registar informação acerca de gestão de colecções e de direitos. - Com vista à criação de metadados de preservação que sistema escolher ? Haverá um sistema de eleição ? 1.5. OBJECTIVOS Os recursos digitais em bibliotecas, arquivos e museus vão desde ficheiros de simples texto até bases de dados de recursos multimedia altamente complexos. A informação digital é composta por uma crescente parte da nossa herança cultural e intelectual e oferece enormes benefícios aos utilizadores. Ao mesmo tempo, a preservação e o acesso a esta informação dependem de meios pouco estáveis, da tecnologia, da criação de metadados na origem e da determinação da autenticidade dos recursos. Quando uma biblioteca ou um arquivo cria os seus próprios recursos, seja por digitalização de colecções existentes seja com documentos unicamente digitais, é possível decidir sobre normas, formatos, controlo de qualidade e metadados associados que vai usar. Quando o mesmo acontece com recursos capturados através da Internet essa capacidade de controlo não existe. Acontece que, por vezes por puro desconhecimento, outras por falta de fundos ou qualquer outra razão, os organizadores de bibliotecas digitais não têm preocupações preservacionis- 9 LUPOVICI, Catherine (1998) – L’information bibliographique de douments electroniques. Paris, BBF, 43 (4) 12 1. INTRODUÇÃO tas nem utilizam as chamadas boas práticas oferecidas pela normalização e não integram a criação de metadados específicos para a preservação dos recursos. O mesmo se verifica no que diz respeito a normas instituídas para a criação e manutenção dos sítios. Passado algum tempo, todo o investimento, tanto a nível financeiro como intelectual perde-se, o que dá lugar a frustrações do utilizador final e a empobrecimento do património cultural e científico. A preservação dos recursos digitais é, por conseguinte, uma missão que deve ser considerada estratégica pelos estados e por isso endossada, na sua parte fundamental às instituições patrimoniais: bibliotecas nacionais, arquivos nacionais ou grandes bibliotecas académicas. Estes devem ser apetrechados de todos os meios, humanos, tecnológicos e financeiros para fazer face à complexidade dos problemas que decorrem da própria natureza dos recursos e do meio ambiente digital. A instabilidade do ambiente da Internet obriga a uma constante presença do elemento humano. Damos os exemplos, entre outros, da criação de ferramentas de indexação, pesquisa e captura em larga escala, que percorrem e perscrutam a Internet sem cessar descobrindo recursos que vão de encontro às necessidades de selecção ou ainda ferramentas que lhes associam metadados. No caso da preservação digital de longo prazo, serão metadados específicos para preservação. Os recursos digitais tornam-se ilegíveis e inacessíveis se os mecanismos de leitura necessários se tornarem obsoletos. A fragilidade física dos suportes, a obsolência tecnológica e a plasticidade do meio ambiente digital são obstáculos a ultrapassar na preservação digital de longo prazo. Consideramos como preservação digital de longo prazo, o armazenamento, a manutenção e o acesso continuado aos recursos digitais, usualmente consequência da aplicação de uma ou mais estratégias de preservação digital incluindo migração de dados ou emulação tecnológica (Russel & Sergeant, 1999)10. Adoptámos a definição de repositório digital confiável como aquele cuja missão é assegurar o acesso continuado aos recursos digitais de forma persistente e estável a uma designada comunidade agora e no futuro (RLG-OCLC, 2002) 11. No seguimento dos pressupostos enunciados passamos a apresentar os nossos objectivos para esta tese : 10 11 RUSSEL,Kelly & SERGEANT,Derek (1999) - The Cedars project : implementing a model for distributed digital archives. RLG DigiNews, 3 (3). RLG-OCLC (2002) – Trusted digital repositories : attributes and responsibilities. Mountain View: Research Libraries Group. 13 1. INTRODUÇÃO 1) Estudar os conceitos teóricos da preservação digital. 2) Verificar o “estado da arte” a nível mundial, incluindo no nosso país, em matéria de preservação de recursos digitais a longo prazo. 3) Comparar as melhores práticas utilizadas pelos projectos mais importantes na área da preservação digital. 4) Apresentar linhas orientadoras para o ciclo de vida dos recursos digitais, baseadas em projectos existentes, de apoio às instituições que manifestam intenções de criação de repositórios digitais confiáveis. 5) Contribuir, ao longo de todo o trabalho, para dar pistas e alertar a consciência daqueles que, no nosso país, a nível institucional, têm o poder decisório sobre a criação e organização de bibliotecas ou repositórios digitais. 14 2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS 2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS “As bibliotecas digitais devem permitir o acesso a todo o conhecimento humano por parte de qualquer cidadão, em qualquer hora e em qualquer lugar, num ambiente amigável, multi-modal, eficiente e efectivo ultrapassando as barreiras da distância, da língua e da cultura através de dispositivos ligados à Internet” DELOS Brainstorming Report, San Cassiano, Itália, 2001 As bibliotecas digitais e as suas infraestruturas tecnológicas encontram-se em rápido amadurecimento. Do ponto de vista da preservação digital, é na fase do estudo das opções de criação das infraestruturas que deve ser decidido quais os recursos a preservar e durante quanto tempo. O acesso e a preservação sempre mantiveram uma forte interacção, sendo objectivo primeiro da preservação da informação o de a tornar acessível a futuras gerações (Jones & Beagrie, 2001)12. Partindo deste pressuposto e no que diz respeito a recursos digitais, as decisões quanto à preservação e acesso devem ser tomadas, de preferência, em simultâneo. São contudo distintas pois a preservação do acesso aos recursos requer uma atenção mais activa na gestão do seu ciclo de vida (vide 3.4). Existem motivos para a separação de cópias para o acesso e para a preservação no que diz respeito a aspectos tecnológicos, funcionais e legais, tendo em vista as fases de armazenamento e segurança, da escolha de suportes e da abordagem do problema da escalabilidade. 12 JONES, Maggie & BEAGRIE, Neil (2001) – Preservation management of digital materials : a handbook. London, The British library 15 2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS 2.1. CARACTERÍSTICAS DE UMA BIBLIOTECA DIGITAL Ao analisarmos a citação que introduzimos no início do capítulo verificamos que os objectivos de uma biblioteca digital estão muito bem definidos. Podemos referir-nos a estruturas de bibliotecas digitais criadas à luz das bibliotecas convencionais, de museus digitais, de arquivos digitais, também espelhados nos modelos tradicionais e também a repositórios digitais, que podem armazenar qualquer tipo de recurso digital e que cumpre da mesma maneira as funções de divulgação e acesso por um período de tempo que se pretende longo. Apresentamos algumas orientações que definem uma biblioteca digital quanto aos seus objectivos13, propósitos e tempo de vida: 1. Os objectivos são a oferta de serviços integrados que permitem ter acesso a recursos em colecções culturais ou científicas, por vezes indo ao encontro dos sistemas tradicionais na sua essência, outras vezes, em estruturas totalmente novas aproveitando as potencialidades do ambiente tecnológico. A funcionalidade dos serviços integrados assenta nos seguintes pressupostos : Necessidades de informação de grande qualidade Informação relacionada em fontes diversas e dispersas Informação heterogénea Fontes de informação ricas e fiáveis Informação multimédia Comunidade de utilizadores definida Utilizadores motivados Orientação por domínios do conhecimento Acessos em línguas variadas Colaboração / Cooperação 13 DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) - DELOS Brainstorming Report. San Cassiano, 2001. ERCIM-02-W02 16 2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS 2. Quanto aos propósitos, é possível referir que as bibliotecas digitais são procuradas sobretudo para investigação e aprendizagem. 3. O tempo de vida aponta para que as bibliotecas digitais possam fornecer acesso a informação preservada por períodos de tempo mais ou menos longos, consoante as necessidades das comunidades de utilizadores. 2.2. A PRESERVAÇÃO DOS RECURSOS E A GESTÃO DAS BIBLIOTECAS DIGITAIS No que diz respeito à preservação de longo prazo convém referirmos as boas práticas que determinam o tempo de vida e a confiabilidade dos sistemas e dos recursos, sem os quais qualquer biblioteca digital, seja ela repositório ou simples espaço de comunicação e de divulgação da informação perdem as suas potencialidades de referência aos olhos das suas comunidades de utilizadores e que são : 1) As estratégias de preservação Falamos aqui de tomadas de decisão sobre o tipo de conversão de dados que a biblioteca vai prosseguir e da sua posterior descrição e documentação. A história da mudança ao longo do tempo deve estar totalmente documentada através de metadados. Dado que as tecnologias evoluem e a obsolência vive em permanência no horizonte, devem ser desenvolvidas técnicas que automaticamente ou em parte migrem os conteúdos e os processos de uma biblioteca digital para os novos ambientes tecnológicos. Este passo deve ser dado de forma transparente para as comunidades de utilizadores, obviando à privação do acesso sempre que possível. 2) As técnicas de reparabilidade que dão suporte à autenticidade dos recursos Sempre que se procede a qualquer estratégia de conversão de dados, existe perda de informação. Para que seja possível reconstruir ficheiros e evitar perdas muito graves são utilizados mecanismos de reparabilidade que podem ser conseguidos através de chaves de autenticação, check-sums, digests (cf. Anexo 3 – Glossário), etc. 2.2.1. Alguns aspectos tecnológicos básicos das bibliotecas digitais Seguindo ainda o relatório DELOS (2001)14 existem alguns componentes das bibliotecas digitais, do âmbito da gestão de sistemas, que são considerados pontos chave para trabalho de investigação na próxima década e do nosso ponto de vista destacamos aqueles que são indispensáveis à saudável preservação dos recursos ao longo do tempo: 14 DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) – Op. cit. 17 2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS 1) Sistemas de arquitectura básicos A arquitectura cliente-servidor baseada na dependência de computadores dedicados ao serviço de outros computadores e de três camadas deixou de ser adequada e deve ser substituída por arquitecturas de orientação a objectos ou de múltiplas camadas. 2) Sistemas abertos Uma arquitectura aberta obriga a que todas as funcionalidades da biblioteca digital estejam compartimentadas em sistemas muito bem definidos e prevê o desenvolvimento de linhas de investigação nas áreas da flexibilidade dos módulos de plug-and-play15 ou seja a capacidade que um sistema informático tem de automaticamente configurar mecanismos de expansão a novos serviços e dispositivos. Deve ser possível acrescentar funcionalidades sem recorrer a mais elementos de configuração ou à utilização de dip-switches ou jumpers. 3) Interoperabilidade e metadados A interoperabilidade é um dos requisitos mais importante do sistema e apesar do trabalho árduo existente nesta área deveria ser desenvolvido estudo suplementar sobre mapeamento de formatos de dados e esquemas de metadados e também de ferramentas de conversão de dados. Estas deveriam ser colocadas em acesso aberto a todas as bibliotecas digitais um pouco à semelhança da conversão entre formatos MARC que as bibliotecas desenvolveram para permitir o reconhecimento e a troca de dados entre sistemas automatizados. 4) Escalabilidade Dada a propensão para o crescimento desmesurado de qualquer biblioteca digital, a escalabilidade deve ser considerada tanto no que diz respeito aos conteúdos, como aos componentes do sistema, como à quantidade de utilizadores, o que requer arquitecturas descentralizadas. Estas podem ser, entre outras, do tipo peer-to-peer16, tipo de rede em que cada estação de trabalho tem capacidades e responsabilidades equivalentes, diferindo de uma arquitectura de cliente-servidor na qual existem computadores que estão dedicados ao serviço de outros computadores, ou GRID17 onde ao contrário das redes convencionais que têm o seu ponto fulcral nas comunicações entre dispositivos, esta, aproveita os ciclos de não processamento de todos os computadores na rede para resolver problemas de exces- 15 16 17 http://www.webopedia.com/TERM/p/plug_and_play.html http://www.webopedia.com/TERM/p/peer_to_peer_architecture.html http://www.webopedia.com/TERM/g/grid_computing.html 18 2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS siva morosidade para máquinas stand-alone, isto é, para máquinas que não se intercomunicam com outras máquinas18. 5) Segurança Podemos considerar a segurança como um ponto crítico na manutenção de bibliotecas digitais especialmente ao nível da integridade dos conteúdos, da confidencialidade e dos direitos de propriedade intelectual. Qualquer destes pontos irá ser desenvolvido ao longo deste trabalho. 2.2.2. A tecnologia do acesso Existem alguns aspectos tecnológicos da maior importância no que diz respeito ao paradigma de acesso integrado a bibliotecas digitais. Estes estão relacionados com a variedade de sistemas de dados em operação conjunta que vão desde bases de dados relacionais a documentos não estruturados ou baseados em multimedia. Correntemente, a forma mais utilizada de descobrir recursos em bibliotecas digitais é através dos catálogos bibliográficos das colecções acessíveis em linha, vulgarmente conhecidos como OPACs (Online Public Access Catalog), das instituições detentoras de conteúdos ou de bases de dados nacionais ou ainda através dos motores de busca mais comuns, isto se estes possuírem boas ferramentas de indexação automática. No caso, p. ex. da Biblioteca Nacional da Austrália, o utilizador tem acesso aos títulos dos recursos electrónicos depositados, tanto através do OPAC como da base de dados de bibliografia nacional. Também é possível aceder aos títulos dos recursos electrónicos depositados através da página do projecto PANDORA19 (Phillips, 2001)20. Existe, portanto, uma aproximação de estratégias de acesso para os recursos tradicionais e para os recursos electrónicos o que significa uma mais-valia para a comunidade de utilizadores que acede de forma integrada à informação, independentemente do suporte em que a mesma se encontra. Em contexto pan-europeu, o projecto TEL – The European Library Project21 é um sistema cooperativo de partilha de recursos constituído por 10 bibliotecas nacionais europeias que têm como objectivo desenvolver um sistema de acesso às colecções de que são proprietárias. A British Library lidera o projecto e os outros parceiros participantes são: a Biblioteca 18 19 20 21 http://www.webopedia.com/TERM/s/stand_alone.html http://pandora.nla.gov.au/index.html/archive.html PHILIPS, Margaret E. (2001) - Ensuring long-term access to online publications. Journal of Electronic Publishing, 4 (4) http://www.europeanlibrary.org 19 2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS Nacional de Portugal (BN), a Biblioteca Nacional de Itália (BNCF), a Conferência de bibliotecas nacionais europeias (CENL), a Biblioteca Alemã (DDB), a Biblioteca Nacional da Finlândia (HUL), o Instituto Central do Catálogo Único, Itália (ICCU), a Biblioteca Nacional da Holanda (KB), a Biblioteca Nacional da Eslovénia (NUK) e a Biblioteca Nacional Suíça (SNL). Este projecto pretende desenvolver um conjunto de boas práticas que agrupa em seis módulos: a) Relações com as editoras As negociações com as principais editoras devem ser estabelecidas em parceria tendo em vista aspectos técnicos, financeiros, de licenciamento e de direitos de autor. Também se pretende estabelecer alguma normalização no que diz respeito ao depósito legal e às condições de depósito de longo prazo. b) Planos de negócio Este módulo pretende incluir estudos de mercado assim como cenários para eventuais modelos de custos. c) Metadados O projecto TEL tem em vista desenvolver protocolos e modelos de dados que incluem a normalização de metadados descritivos, estruturais, técnicos, de preservação, de direitos, ou ainda outros, de acordo com esquemas para recursos digitais ou não, utilizados pelos parceiros envolvidos22. d) Interoperabilidade Os parceiros seleccionam um ou mais serviços bibliográficos que contenham informação acerca das suas colecções, digitais ou impressas. Estas destinam-se a ser testadas através de Z39.50 ou XML (cf. Anexo 3 – Glossário). O grupo de trabalho deverá procurar as melhores soluções de interoperabilidade. 22 No capítulo 3 deste trabalho iremos encontrar desenvolvidos aspectos relativos aos metadados de preservação. 20 2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS e) Disseminação e acesso ao projecto O plano de disseminação e acesso encontra-se definido desde o início e pretende operacionalizar o relacionamento entre as diferentes bibliotecas participantes assim como organizar os eventos necessários à divulgação de resultados. f) Gestão do projecto A gestão do projecto pretende coordenar e supervisionar os prazos e a qualidade dos deliverables, assim como os aspectos financeiros. O papel a desenvolver pelas bibliotecas digitais no que diz respeito à preservação dos recursos deve manter os mesmos padrões de exigência sempre defendidos para os recursos em suporte tradicional, assim como promover o desenvolvimento de novas competências do pessoal envolvido. As bibliotecas devem desenvolver políticas, procedimentos e infraestruturas adequadas a colecções de diversos tipos de recursos digitais e integrá-los em sistemas de descrição, catalogação, acesso e preservação, ao mesmo tempo que devem considerar a possibilidade de partilhar tecnologias e experiências, reduzindo esforços e custos. 21 2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS 22 3. QUADRO TEÓRICO DE REFERÊNCIA 3. QUADRO TEÓRICO DE REFERÊNCIA 3.1. A PRESERVAÇÃO DA MEMÓRIA DOS POVOS A preocupação com o problema da preservação e conservação de colecções de documentos é tão antiga como a sua existência. Preservar a memória é preservar a identidade cultural; é ligar passado e presente e dessa forma preparar o futuro. Ora, precisamente, é nas bibliotecas e nos arquivos que podemos encontrar uma grande parte dessa memória. Tradicionalmente, a História liga a biblioteca à preservação de textos. Na Idade Média as bibliotecas monásticas desenvolviam um trabalho de cópia. Os bibliotecários coevos tinham consciência da necessidade de transmitir à posteridade os verdadeiros tesouros que possuíam, assim como todo o conhecimento contido nesses artefactos. A técnica de cópia era a única possível para assegurar a preservação e o acesso aos textos. Com o advento da imprensa de caracteres móveis em meados do século XV, as bibliotecas constituem-se em torno de colecções de livros impressos, depois publicações periódicas, literatura cinzenta, etc. No início do Séc. XXI, as colecções das bibliotecas são ainda maioritariamente texto e papel, algumas devidamente preservadas, outras condenadas a existência mais efémera. Fazer face às diferentes missões de preservação das colecções contidas em bibliotecas constituiu até há bem pouco tempo a principal preocupação do bibliotecário, pelo menos o das bibliotecas patrimoniais. Todos os anos, documentos preciosos, verdadeiros tesouros património da humanidade desaparecem devido a causas naturais que vão desde a simples negligência humana a catástrofes naturais. A guerra e os actos de terrorismo são, da mesma maneira constantes ameaças para a nossa herança colectiva. 23 3. QUADRO TEÓRICO DE REFERÊNCIA Abdelaziz Abid em “Memory of the World – preserving our documentary heritage”23 descreve as linhas de orientação do programa “Memory of the World” da responsabilidade da UNESCO iniciado em 1992 com o objectivo de salvaguardar documentação histórica e ao mesmo tempo democratizar o seu acesso assim como divulgar produtos que possam ser criados a partir desses documentos. Em relatório que o mesmo responsável prefacia (Hoeven & Joava, 1996)24 afirma-se, sem pretender fazer um monumento funerário, que mais de 100 bibliotecas e colecções foram destruídas, por motivos alheios à vontade do homem, ao longo do Séc. XX. É um facto verdadeiramente preocupante dado que o vazio ocupou o espaço da memória e as comunidades empobreceram. Esta situação é relativa às bibliotecas tradicionais. Quanto às emergentes bibliotecas digitais, são também elas agora objecto de preocupação pela necessidade da sua preservação. O propósito da preservação digital a longo prazo, pode ser estabelecido segundo Beagrie e Greenstein em 199825 como uma questão que começa quando o impacto da mudança tecnológica necessita de ser encarado de forma sucessiva indefinidamente no tempo e acrescentamos, seguindo o pensamento de Seamus Ross (2000)26 quando começa a haver uma crescente dependência da informação digital. Esta dependência, por si só contém alguns efeitos comportamentais de mudança tanto do ponto de vista tecnológico como sociológico, tais como: A forma de documentar e armazenar factos históricos e culturais está a mudar, dado que, já não existe obrigatoriamente uma relação directa entre a forma de armazenamento físico, a estrutura lógica da representação no armazenamento e a sua interpretação. A nossa cultura propriamente dita está a mudar. A Internet criou um ambiente no qual novas comunidades e grupos sociais podem existir e evoluir. Ao mesmo tempo emergem protocolos e formas de relacionamento que regem as interacções sociais virtuais. 23 ABID, Abdelaziz (1998) – Memory of the World Preserving our documentary heritage. In : IFLA General Conference, 64, Amsterdam. 24 HOEVEN, Hans van der & ALBADA, Joan van (1996) - Lost memory : libraries and archives destroyed in the Twentieth Century. Paris, UNESCO, 70 p. 25 BEAGRIE, Neil & GREENSTEIN, Daniel (1998) – A strategic policy for creating and preserving digital collections : a report do the Digital Archiving Working Group. British Library Research and Innovation Report N. 167. 26 ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholarship. London, National Preservation Office. 24 3. QUADRO TEÓRICO DE REFERÊNCIA Parece ser evidente que os alvos de interesse de preservação estão relacionados com aspectos probatórios, reutilização académica ou comercial ou ainda valor histórico de instituições ou memória nacional, p. ex., os emails de personalidades públicas, etc. Em Portugal, e segundo o relatório TEL (The European Library) (J. Stapel 2001)27, as preocupações são de facto do mesmo teor porque verificamos que estão seleccionados à partida para preservação, documentos oficiais, teses e dissertações, publicações periódicas electrónicas no domínio .pt e documentos em outros domínios que tenham manifesto interesse cultural e histórico para o nosso país. Tradicionalmente, para reconstruir o passado, os historiadores recorrem a uma grande diversidade de fontes. Devemos reconhecer que para sabermos quem somos e qual vai ser o impacto do nosso passado no nosso futuro, precisamos de conhecer as nossas origens. Desse modo, os historiadores do futuro irão procurar transcrições de sessões de chat, newsgroups, correio electrónico, câmaras web e sítios que ao mesmo tempo integram documentação diversa, p. ex. de empresas ou organismos oficiais, de bancos ou de instituições de saúde. Quando nos anos 30 do Séc. XX, arqueólogos encontraram o arquivo de Persepolis, sobrevivente do incêndio do palácio depois da queda de Alexandre, verificaram que o material de suporte à informação, as placas de argila, tinham conseguido a sobrevivência ao fogo. Contudo, o conteúdo de muitas dessas placas ainda não foi transcrito e mesmo a sua transcrição, quando possível, não é 100% fiável. Da mesma forma, migramos a informação digital de um suporte para outro ou de um formato que se tornou obsoleto para outro e permanece a dúvida quanto ao nível de confiabilidade. Há, pois, uma certa semelhança ao que acontece com o suporte e o conteúdo das placas de argila. O seu conteúdo e estrutura devem ser estudados e interpretados da mesma maneira, ao nível da durabilidade, inteligibilidade, metadados, recuperação de dados e obsolência tecnológica. Os equipamentos de depósito digital, por seu lado, podem fornecer pequenas pistas sobre os formatos dos dados que contêm mas, por enquanto, só ocasionalmente possuem alguma indicação de hardware necessário para aceder a esses dados28. 27 28 STAPPEL, Johan, DE NIET, Marco, JOCHUM-STARK, Dorothea (2001) – TEL Metadata : state of the art review (3rd draft and final version). ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholarship. London, National Preservation Office. 25 3. QUADRO TEÓRICO DE REFERÊNCIA 3.2. O PAPEL DAS INSTITUIÇÕES PATRIMONIAIS Segundo a UNESCO (Lor & Sonnekus,1997)29 uma biblioteca nacional, como instituição cultural, deve espelhar a sociedade onde está inserida e dessa forma consoante as diversas nações, aparecem bibliotecas nacionais também elas com algumas variantes. Muitas bibliotecas nacionais, bibliotecas académicas, arquivos nacionais e outras organizações detentoras de enormes quantidades de documentos têm vindo a desenvolver trabalhos de microfilmagem e digitalização em larga escala com vista a preservação e divulgação de documentação de interesse nacional. Os investigadores das gerações futuras terão à sua disposição valiosos fundos de conteúdo histórico, os quais darão lastro para um número infinito de investigações, e produção de conhecimento. Tomando como exemplo a política de desenvolvimento de colecções da Biblioteca do Congresso30 dos EUA que nos diz ter, como objectivo, servir o governo, a escola e o público em geral verificamos que no que diz respeito à preservação de colecções que o propósito é, não só conservar, mas também proporcionar a consulta do público a documentos de natureza precária e de interesse nacional ou seja garantir o acesso31. Nessa perspectiva a microfilmagem convive, em paralelo com a digitalização. A digitalização dos documentos existentes, está em curso tendo em conta a necessidade urgente de divulgação das obras. Em paralelo com a preocupação da preservação de colecções encontramos a da eliminação. G. E. Gorman & B. R. Howes em 198932 dizem-nos que preservação e eliminação estão estreitamente ligadas mas que a preservação é antes de tudo um problema nacional e não local, raciocínio que podemos trazer para o campo das colecções nascidas digitais pois toda a atenção sobre a sua preservação a longo prazo está a ser considerada por bibliotecas e arquivos nacionais de todo o mundo. Passando para outra realidade, em 2002 M. L. Cabral33, no âmbito de Congresso da IFLA faz um breve resumo dos resultados de uma pesquisa baseada em questionários apresentados a bibliotecas nacionais na Europa do Sul sobre as condições de preservação de documentos em qualquer suporte e os resultados não são animadores: Os problemas existentes são sobretudo a nível organizacional e não técnico: LOR, Peter Johan, SONNEKUS, Elisabeth A. S. (1997) - Guidelines for legislation for national library services. UNESCO. 30 http://lcweb.loc.gov/acq/devpol/cps.html 31 http://lcweb.loc.gov/preserv/prd/presdig/presintro.html 32 GORMAN, G. E. & Howes, B. R. (1989) – Collection development for libraries. London, BowkerSauer 29 26 3. QUADRO TEÓRICO DE REFERÊNCIA Existe uma deficiente definição de objectivos, logo, ausência de estratégias. A prevenção surge em segundo plano quando deveria aparecer em primeiro, lugar que é ocupado pela acções de tratamento propriamente dito. A partilha de recursos é inexistente o que enfraquece ainda mais as já debilitadas políticas de preservação quando estas existem. Uma realidade felizmente diferente é a política de preservação digital da Biblioteca Nacional da Austrália34, que identifica as entidades que devem preservar a herança cultural nacional e torná-la acessível e que são: Biblioteca nacional Bibliotecas universitárias Algumas bibliotecas públicas Arquivos de organizações estatais Museus Criadores e editores Utilizadores de informação O Governo e a comunidade em geral E refere ainda os objectivos do trabalho conjunto a desenvolver relacionados com: Identificação dos parceiros com competências apropriadas para contribuir para o esforço nacional Estabelecimento de protocolos sobre as responsabilidades e os papéis a desempenhar Explicitação dos acordos de cooperação financeira que garantam uma base confiável de acessos ao longo do tempo 33 34 CABRAL, Maria Luísa (2002) – Preservation and conservation in South Europe : a survey among national libraries. In : IFLA council and General Conference, 68th, Glasgow, 2002 NLA (2002) – A digital preservation policy for the National library of Australia 27 3. QUADRO TEÓRICO DE REFERÊNCIA Cooperação na identificação, desenvolvimento e promoção de políticas, procedimentos e ferramentas que sustentam tais princípios Trabalho com os criadores, editores e utilizadores dos conteúdos digitais no sentido de promover a utilização de boas práticas com vista a preservação Trabalho com os legisladores e órgãos de poder no sentido de desenvolver enquadramentos legais que garantam uma boa relação custo-benefício aos sistemas de preservação 3.2.1. Os recursos digitais e o depósito legal No nosso país, o depósito de recursos digitais ainda não é sujeito a obrigatoriedade legal. Encontra-se, por esse facto, limitada a missão da Biblioteca Nacional de Portugal na preservação da memória colectiva nacional. Parece-nos pertinente aproveitar os princípios de depósito legal dos documentos tradicionais, no nosso país e aplicá-los aos recursos digitais, com o óbvio alargamento às especificidades próprias do meio digital, nomeadamente para efeitos de acesso e preservação. Para que seja possível preservar os recursos digitais depositados, estes devem ser acompanhados de metadados no sentido de garantir a sua reprodução posteriormente. Citamos os objectivos do depósito legal que encontramos em página da Internet da responsabilidade da Biblioteca Nacional de Portugal35: 1) Constituição e conservação de uma colecção nacional (todas as publicações editadas no país); 2) Produção e divulgação da bibliografia nacional corrente; 3) Estabelecimento de estatísticas nacionais; 4) Enriquecimento de bibliotecas dos principais centros culturais do país; 5) Assegurar a constituição de importantes e riquíssimos fundos bibliográficos para as gerações futuras. São objecto de depósito legal as seguintes publicações : 35 BIBLIOTECA NACIONAL – Serviço de Depósito Legal - Serviços: Serviços para Editores: Depósito Legal, A Constituição de uma Colecção Nacional. http://www.bn.pt/servicos-ao-publico/spdeposito-legal.html 28 3. QUADRO TEÓRICO DE REFERÊNCIA Livros, brochuras, revistas, jornais e outras publicações periódicas, separatas, atlas e cartas geográficas, mapas, quadros didácticos, gráficos estatísticos, plantas, planos, obras musicais impressas, programas de espectáculos, catálogos de exposições, bilhetes - postais ilustrados, selos, estampas, cartazes, gravuras, fonogramas e videogramas, obras cinematográficas, microformas e outras reproduções fotográficas; Obras impressas no estrangeiro que tenham indicação do editor domiciliado em Portugal e que são equiparadas às obras portuguesas, para cumprimento de Depósito Legal; Teses de mestrado e doutoramento, trabalhos de síntese, estudos e dissertações e outros trabalhos relativos às carreiras docentes do ensino universitário e do ensino superior politécnico estão abrangidas pela obrigatoriedade de Depósito Legal; As reimpressões e as novas edições são consideradas como obras diferentes, sujeitas à obrigação de depósito, desde que não se trate de simples aumentos de tiragens. Obras publicadas há menos de um ano, apenas se exige um exemplar ou cópia. Actualmente, este serviço é regulado pelos Decreto-Lei nº 74/82 de 3 de Março e o Decreto-Lei nº 362/86 de 28 de Outubro36 Não podemos deixar de referir o trabalho conjunto entre a CDNL (Conference of Directors of National Libraries) e a UNESCO com o objectivo de desenvolver orientações para as bibliotecas nacionais, com vista à preparação de legislação de depósito legal específica para recursos digitais37. Este documento complementa as linhas orientadoras preparadas em 1981 por Jean Lunn38. No que diz respeito à preservação dos recursos digitais, considerase que, dada a longevidade curta e obsolência dos suportes e dos meios, é importante que através do depósito legal os repositórios tenham cobertura legal para copiar, refrescar ou migrar as publicações depositadas com o objectivo de as preservar para o futuro. Estas garantias devem constar da legislação de cada país. 36 37 38 Portugal, leis, decretos - Decreto-Lei nº 74/82 de 3 de Março ; Decreto-Lei nº 362/86 de 28 de Outubro CDNL (Conference of Directors of National Libraries) (1996) – The legal deposit of electronic publications. Unesco. LUNN, Jean (Prep.) (1981) – Guidelines for legal deposit legislation. Paris, General Information Programme and UNISIST – Unesco. (PGI-81/WS/23) 29 3. QUADRO TEÓRICO DE REFERÊNCIA Cada biblioteca detentora de depósito legal, no seu ambiente legal, deve trabalhar no sentido de facilitar o acesso dos recursos digitais no mais breve espaço de tempo. No caso da lei portuguesa, como referido acima, ainda não existe qualquer referência explícita a documentos electrónicos, mas um novo diploma legal encontra-se já em discussão39. Este, a ser aprovado, estende-se às imagens em movimento para preservação e acesso e ainda às publicações electrónicas com suporte físico. Os recursos digitais sem suporte físico serão objecto de depósito legal selectivo em termos a estabelecer entre a Biblioteca Nacional e os respectivos produtores. No que diz respeito aos recursos electrónicos sem suporte físico deve ser tido em consideração que estes podem estar distribuídos por vários servidores em vários países. Por outro lado, os meios utilizados para a sua criação podem ser vários e também distribuídos. A orientação do CDNL vai no sentido da abrangência das publicações electrónicas com ou sem suporte físico para que a integridade do acesso à informação fique garantida, independentemente do suporte. Apesar da herança digital dos portugueses nossos contemporâneos estar, por enquanto, sem regulamentação própria, existe vontade e determinação de alterar a situação como o prova o recente manifesto40 elaborado por ocasião do Encontro sobre Preservação Digital que decorreu em Lisboa, organizado pela Biblioteca Nacional e pela EPCA (European Comission on Preservation and Access). 3.2.2. Modo de aquisição dos recursos Uma vez decidido o âmbito geral, missão e objectivos do repositório que vai acolher recursos digitais para preservação impõe-se uma decisão sobre o método de aquisição. Este pode idealmente ser um complemento de depósito legal e de depósito voluntário dos produtores, constituindo-se assim a forma passiva de adquirir recursos. Outra opção possível é a considerada pró-activa e neste caso é o repositório que vai ao encontro dos recursos através da Internet. Especificando melhor : Forma passiva Os recursos digitais podem ser adquiridos ou por meio de acordos com os produtores/editores ou através de medidas legais estabelecidas, tais como o depósito legal referido anteriormente. 39 40 http://www.apbad.pt/pdeposito_legal.htm BORBINHA, José Luís et al. (2002) – Manifesto para a preservação digital. Cadernos BAD, 2 30 3. QUADRO TEÓRICO DE REFERÊNCIA A opção de acordo parece-nos ser bastante equilibrada pois o “ruído” na construção das colecções é reduzido ao serem seguidas linhas orientadoras para a primeira fase do ciclo de vida dos recursos (ver ponto 3.4), fase da criação. Logo nesta fase devem ser integrados metadados que são indispensáveis para ulterior gestão da preservação. No caso do depósito legal, os produtores nem sempre são conhecedores da necessidade da sua colaboração no momento da inclusão de metadados e por esse motivo, torna-se necessário proceder a conferência da existência dos mesmos. No caso da sua ausência, o repositório é obrigado a incorporá-los. Forma pró-activa O método de ir ao encontro dos recursos pode ser executado através de dois processos, ou com a ajuda do elemento humano ou automaticamente. No primeiro caso, a captura de recursos torna-se pouco produtiva apesar de mais consistente. Os recursos humanos disponibilizados para este tipo de trabalho especializado não conseguem obviamente acompanhar o ritmo de aparecimento de novos recursos. Ao diminuir a quantidade de recursos respigados diminui a abrangência das colecções do repositório. Também o objectivo deste tipo de captura pode ser questionado por se desconhecerem as necessidades das gerações futuras. A captura automatizada, levada a cabo por robots, Web-crawlers (software de busca de páginas Web através da Internet, normalmente ao serviço dos motores de busca) é o método que mais se adequa à aquisição através da Internet. As colecções são construídas de forma distribuída, o que lhes acrescenta representatividade bem como as características de abrangência temática de que carece a opção manual. Este método, dada a enorme quantidade de dados com que lida leva a que seja necessário proceder a cada “viagem” de captura com intervalos de tempo. Cada período de captura, só por si, pode durar alguns meses. O repositório, dependendo das suas características, terá necessidade de articular ambos os métodos de aquisição e torná-los complementares (Lupovici & Masanès, 2001)41. A opção manual ajuda a seguir a evolução dos sítios e favorece o contacto com os produtores/editores. Desta forma é possível aceder a áreas restritas e a páginas dinâmicas. A opção automática permite o acesso a uma grande quantidade de recursos distribuídos e torna-se por esse motivo representativa da informação de um determinado espaço. 41 LUPOVICI, Catherine & MASANÈS, Julien (eds.)(2001) - What's next for Digital Deposit Libraries? Preserving online content for future generation. In : 5th European Conference on Research and Advanced Technology for Digital Libraries. ECDL Workshop. Darmstadt, 2001 31 3. QUADRO TEÓRICO DE REFERÊNCIA 3.3. CARACTERIZAÇÃO DO AMBIENTE TECNOLÓGICO A infraestrutura/repositório deve ser planeada de forma a que os tipos de recursos seleccionados possam ser aí depositados cada qual com tratamento específico, tendo em conta o seu ciclo de vida integral. 3.3.1. Características dos recursos Os recursos podem ser constituídos por texto proveniente de processadores de texto, imagens digitalizadas, ficheiros digitais multimedia altamente complexos, estruturas de bases de dados, recursos da Internet tais como listas de distribuição ou newsgroups, etc, etc. Também a Internet apresenta uma enorme variedade de formatos. Além de páginas HTML podem ser encontrados todos os tipos de formatos multimedia, ao mesmo tempo que novos tipos de dados aparecem e desaparecem em sucessão rápida. No seguimento da decisão sobre os formatos a armazenar, deve determinar-se a forma de armazenamento, preservação e acesso (Aschenbrenner, 2001)42. Quanto aos recursos digitais estáveis não existe grande preocupação no que diz respeito ao seu armazenamento a longo prazo. Segundo Aschenbrenner op. cit.43 podemos armazená-los sem ter conhecimento do seu tipo. Somente numa fase ulterior, quando um utilizador manifesta a necessidade de aceder ao recurso são accionados os mecanismos de interpretação dos dados. Deste modo são gerados tipos de documentos dinâmicos e interactivos que uma vez finalizada a sessão de trabalho são eliminados. A questão da selecção dos recursos da Internet para preservação a longo prazo deve ser equacionada sob o ponto de vista da abrangência temática. Consoante a missão do repositório assim a construção as políticas de selecção anteriormente referidas. A captura dos recursos pode ser efectuada como já foi referido no ponto anterior, através de indexação automática ou com intervenção humana. A indexação automática é considerada a mais complexa. A pesquisa automática depende de aplicações que contornem os constrangimentos da Internet. Os Web-crawlers, que perscrutam a Internet por varrimento e que são essenciais para o desenvolvimento dos repositórios digitais ainda não atingiram um estado de maturidade que lhes permita ultrapassar uma parte dessas dificuldades com êxito. 42 ASCHENBRENNER, Andreas (2001) – Long-term preservation of digital material : building na archive do preserve digital cultural heritage from the Internet. Wien, Institut für Softwaretechnik und Interaktive System. 110 p. (Diplomarbeit) 43 ASCHENBRENNER, Andreas (2001) - Op. cit. 32 3. QUADRO TEÓRICO DE REFERÊNCIA Diz-nos Brewster Kahle em entrevista dada à RLG-Diginews em 200244, quando questionado acerca de falhas no motor de busca “Wayback Machine”, que algumas dessas falhas constam dos próprios recursos e as outras são provenientes do trabalho dos robots. Por outro lado e segundo a interessante experiência dos países nórdicos é a única forma de não existirem perdas e assim preservar a memória colectiva integralmente. Esta estratégia expressa no projecto Kulturarw345 é conseguida no exemplo da Suécia através de retratos da Internet duas vezes por ano, em todo espaço da Suécia nos domínios .se, .com, .org, .net, .nu com endereços ou telefones da Suécia. Este procedimento deve ser efectuado da forma mais rápida possível para obviar a alterações dos ficheiros que fazendo parte do mesmo documento sejam recuperados em tempos diferentes, o que por vezes, origina uma quebra na autenticidade dos recursos se entretanto tiver havido lugar a alterações. Dessa forma é armazenado um novo documento, não o original. Não existe, no contexto deste projecto, qualquer orientação que tipifique a selecção dos tipos de recursos, i.e. são recuperadas todas as imagens, som, etc. 3.3.2. Características dos suportes de armazenamento dos recursos Uma vez os recursos seleccionados consideramos o seu armazenamento. O espaço necessário para depósito deve ser equacionado em função dos objectivos do repositório atendendo a que provavelmente vai ser armazenada uma grande quantidade de recursos. Deve ser estudado o compromisso entre a capacidade, o tempo de acesso e os custos. Selecção dos suportes de armazenamento A banda magnética continua a ser o suporte de armazenamento mais utilizado para grande quantidade de dados. Existem dois tipos de suportes magnéticos : de alto e de baixo magnetismo. Para se conseguir alto magnetismo o suporte deve ser exposto a um forte campo electromagnético. Como resultado conseguem-se altos níveis de magnetismo remanescente. São os suportes de alto magnetismo com grande saturação remanescente e alta coercividade que são adaptáveis ao armazenamento de dados digitais46. 44 KAHLE, Brewster (2002) – The Internet Archive. RLG Diginews, 6 (2) , p. 1-7. ARVIDSON, Allan, PERSSON, Krister & MANNERHEIM, Johan (2000) - The Kulturarw3 Project : the Royal Swedish Web Archiw3e: an example of "complete" colection of web pages. IFLA Council and General Conference, 66th, Jerusalem, 2000 46 ROSS, Seamus & GOW, Ann (1999) - Digital archaeology : rescuing neglected and damaged data resources. London., Library Information Technology Center. (JISK/NPO Study) 45 33 3. QUADRO TEÓRICO DE REFERÊNCIA No que diz respeito ao acesso às bandas magnéticas como resposta a interrogações de utilizadores existe a possibilidade da sua manipulação em sistemas robotizados, vulgarmente chamados “juke-boxes”, porém, trata-se de processo muito complexo e dispendioso. Apesar destes constrangimentos ainda são as bandas magnéticas que oferecem soluções de mais baixo custo se manipuladas com a ajuda do elemento humano. Neste caso, existe um tempo de espera compatível com a actividade de recuperação da banda por parte do serviço. Outro tipo de suporte magnético a considerar é baseado em discos rígidos que devem ser dimensionados para grandes quantidades de dados e de que se colocam vários num só computador. Segundo Ashenbrenner op. cit.47, é possível conseguir bons resultados através da combinação da utilização dos sistemas de bandas magnéticas e discos rígidos ao manter depositados nas bandas os recursos menos procurados, e de forma mais acessível, nos discos rígidos, uma pequena quantidade de recursos com maior probabilidade de serem objecto de pesquisa. Neste caso há que considerar atentamente o âmbito e missão dos repositórios. Paralelamente a estas opções existe a tecnologia dos CD-ROMs que permite o rápido acesso aos recursos. Considera-se simultaneamente a utilização na retaguarda de bandas magnéticas como sistema de back-ups. Duração dos suportes de armazenamento Qualquer que seja a opção de suporte de armazenamento subsistem problemas relacionados com : - Deterioração do suporte - Obsolência técnica do suporte - Deterioração das drives a) Suportes magnéticos Os sistemas magnéticos não são estáveis48, são susceptíveis de deterioração por oxidação e corrosão. Estas podem conduzir a perda de coercividade das partículas e desse modo ocasionar perda de dados. 47 48 ASCHENBRENNER, Andreas (2001) - op. cit. ROSS, Seamus & GOW, Ann (1999) - op. cit. 34 3. QUADRO TEÓRICO DE REFERÊNCIA Alguns problemas advêm também das condições de humidade e temperatura que podem causar incapacidade de localização das pistas, logo, os dados estarão provavelmente perdidos. Consideramos ainda a forma de armazenamento das bandas. Se a banda estiver mal enrolada, e for deixado espaço de circulação do ar a humidade instala-se. Se a banda for esticada de mais pode quebrar-se. Se a banda não for enrolada de forma uniforme subsiste um tipo de tensão que causa deterioração da emulsão. Provavelmente muitos destes problemas não chegam a existir se as bandas forem manuseadas respeitando as normas de segurança. De igual modo deve existir uma boa manutenção e substituição regular das “drives” pois se as cabeças estiverem sujas ou já tiverem sido muito usadas existe o risco de incapacidade de leitura ou mesmo danificação das bandas. Em 1995, John W.C. Van Bogart49 em relatório do National Media Laboratory estima, como longevidade média das bandas magnéticas, um período de tempo que varia entre 10 e 20 anos; contudo as opiniões nesta matéria variam entre as marcas. Rothenberg em 199550 e também em 199851 advoga a cópia das bandas magnéticas uma vez por ano. Considera este autor que é a única forma de evitar perdas de informação quando a preservação se realiza neste suporte magnético. Baseados em Rothenberg (1995) op. cit.52 apresentamos uma estimativa de tempos de vida, sem perda de qualidade, para os vários suportes magnéticos : - Banda magnética – 1 ano - “Videotape” – 1 a 2 anos - Disco magnético – 5 a 10 anos Mais tarde, em 1999, numa revisão do mesmo trabalho53, Rothenberg refere que existe uma grande controvérsia em redor da longevidade dos suportes de armazenamento digital e que há mesmo quem diga que a banda magnética pode ter uma duração de 200 anos contrapondo com outros que consideram essa duração de 1 ano ou 2. Contudo, a longevi- 49 50 51 52 53 BOGART, John W.C. Van (1995) - Magnetic tape storage and handling : a guide for libraries and archives. Washington, The Commission on Preservation and Access & National Media Laboratory. ROTHENBERG, Jeff (1995) – Ensuring the longevity of digital documents. Scientific American. Jan. 1995 ROTHENBERG, Jeff (1999) - Avoiding technological quicksand: finding a viable technical foundation for digital preservation. CLIR. ROTHENBERG, Jeff (1995) – Op. cit. ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. (Expanded version) 35 3. QUADRO TEÓRICO DE REFERÊNCIA dade física dos suportes tem pouca ou nenhuma importância uma vez que a sua obsolência se irá verificar em menos de 5 anos. Por outro lado Bogart também em 1995 op. cit. estima o tempo de vida da banda magnética de entre 10 e 20 anos. No entanto, não refere se a qualidade se mantém inalterada, o que nos parece pouco provável dadas as características físicas do suporte. b) Sistemas ópticos e magneto-ópticos Tal como nos sistemas magnéticos podemos encontrar muitos motivos de preocupação relacionados com influências do ambiente, de manuseamento e também factores mecânicos. Contudo os suportes ópticos têm uma utilização cada vez maior para armazenamento de informação. Os CD-ROMs são compostos por emulsão, uma camada de dados, uma camada reflectora e uma cobertura de protecção54. Os materiais usados na produção dos suportes ópticos variam consoante as marcas e da mesma forma fazem variar os tempos de duração. Por exemplo um CD-ROM que é usado uma única vez pode vir a ter uma duração de entre 50 e 100 anos, contudo aconselha-se o seu refrescamento após 10 anos55. Os sistemas magneto-ópticos são bastante menos resistentes e ao mesmo tempo mais dispendiosos. São também mais sensíveis a alterações ambientais de temperatura e humidade, que podem mesmo fracturar a camada magnética. Como estratégia para reduzir os riscos de perda de informação perante a duvidosa longevidade dos suportes, dever-se-á proceder a um refrescamento dos dados no próprio suporte a intervalos de tempo regulares. Da mesma maneira deve-se proceder a migrações de suporte antes que este esteja fisicamente corrompido. Consideramos sempre a necessidade da existência de várias cópias para que uma substitua outra em caso de deterioração. As cópias devem ser armazenadas em localizações geográficas distintas. Convirá ter presente que podem ocorrer catástrofes naturais, sabotagens ou actos de terrorismo como p. ex. aquele que aconteceu em Nova York em 11 de Setembro de 2001. As formas de enfrentar e controlar o risco serão tratadas mais à frente em capítulo próprio. 54 55 ROSS, Seamus & GOW, Ann (1999) op. cit WEBER, Hartmut (1993) - Opto-electronic storage : an alternative to filming ? CLIR - Commission on Preservation and Access. 36 3. QUADRO TEÓRICO DE REFERÊNCIA 3.3.3. Obsolência dos dispositivos de leitura Os tempos de vida dos suportes não são, de facto, o factor mais importante para a preservação dos recursos digitais. Os dispositivos de leitura à disposição no mercado são substituídos a intervalos de tempo muito curtos, por outros sempre com performances melhoradas e vendidos a preços inferiores. Mais uma vez referimos a necessidade de migrar os dados sempre que o acompanhamento das novidades aconteça para que se não corra o risco de ser ultrapassado pela obsolência dos dispositivos. 3.4. CICLO DE VIDA DOS RECURSOS DIGITAIS 3.4.1. Criação dos recursos A criação é o acto de produzir informação, não sendo imperativo que o criador seja humano, podendo ser um equipamento electrónico preparado para o efeito (Hodge, 2000)56. É nesta primeira fase que as fundações da preservação devem ser lançadas. O criador deve estar envolvido neste processo. No caso da produção originada por máquina são incluídos à partida alguns metadados que acrescentam informação de referência aos registos. Esta informação pode ser relativa à localização e a tipos de instrumentos e indicadores de ordem geral que documentem e identifiquem o recurso. Do mesmo modo, deve ser acrescentada informação relativa ao hardware e software envolvidos. No caso de criação humana e sempre que possível, o criador deve enriquecer o seu trabalho com os metadados identificadores dessa criação. Algumas aplicações informáticas possuem estruturas de preenchimento de metadados que permitem documentar a criação do recurso. Como a tendência é a da incorporação das linguagens XML (Extensible Markup Language) e RDF (Resource Description Framework), a utilização de metadados torna-se fácil. Estas ferramentas facilitam a preservação dos recursos e valorizam a qualidade da indexação automática. A título de exemplo referimos o modelo de metadados de utilização de um leque alargado de comunidades que é o Dublin Core e sobre o qual nos debruçaremos no capítulo referen- 56 HODGE,G.M. (2000) - Best practices for digital archiving : an information life cycle approach. D-Lib Magazine. 6 (1) 37 3. QUADRO TEÓRICO DE REFERÊNCIA te a metadados. Fácil de utilizar, flexível e expansível com a ajuda de qualificadores dos elementos base, tem as potencialidades necessárias à interoperabilidade, já que a tendência actual é para uma grande multiplicidade de normas e especificações (Cordeiro, 2001)57. 3.4.2. Selecção dos recursos A selecção dos recursos a preservar a longo prazo constitui uma medida de gestão das instituições tutelares do repositório digital e baseia-se na sua missão e objectivos. A política de selecção deve ser documentada depois de ter sido objecto de discussão e reflexão profundas. No seguimento do trabalho conjunto devem surgir princípios que norteiam a selecção. Refiram-se as linhas orientadoras da Biblioteca Nacional da Austrália58 e também as da Biblioteca Nacional do Canadá59, disponíveis na Internet nos respectivos sítios. A política de selecção a instituir deverá ter em conta o valor cultural, histórico ou de carácter científico dos recursos a depositar, assim como as necessidades da comunidade de utilizadores. Alguns exemplos de selecção A Biblioteca Nacional da Austrália através do seu projecto PANDORA selecciona para preservação de longo prazo monografias, publicações periódicas, home pages, documentos efémeros, conteúdos australianos em contexto social, político, cultural, religioso, científico ou económico relevantes para a Austrália e da autoria de australianos, assim como recursos digitais provenientes de órgãos oficiais e assuntos pontuais seleccionados pelo responsável pela gestão de colecções. A Biblioteca Nacional da Austrália deposita apenas uma versão de cada trabalho se este possuir múltiplas versões em suportes diferentes. A Biblioteca Nacional do Canadá integra a selecção de recursos digitais na política de gestão de colecções. Nas suas linhas orientadoras60 verificamos que a selecção de recursos electrónicos se baseia na proveniência dos recursos, que deve ser canadiana. Também, tal como a Biblioteca Nacional da Austrália, são preservados os recursos de domínios não canadianos, mas que tenham interesse cultural, histórico ou científico para a nação canadiana. 57 58 59 60 CORDEIRO, Maria Inês (2001) – Tecnologias, bibliotecas e arquitectura de informação : dos sistemas aos objectos. In : Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, Porto, 2001 http://www.nla.gov.au/scoap/guidelines.html http://www.nlc-bnc.ca/pubs/irm/eneppg.htm http://www.nlc-bnc.ca/9/8/index-e.html#7a 38 3. QUADRO TEÓRICO DE REFERÊNCIA A Biblioteca Nacional da Suécia, através do projecto Kulturarw3 tem uma abordagem totalmente diferente no que concerne à selecção de recursos digitais já que considera que ao seleccionar um e não outro recurso pode estar a cometer um erro e assim obstar à consolidação consistente do conhecimento futuro. Desta forma captura todos os sítios do domínio .se e ainda os criados na Suécia mas de domínio .com. Adicionalmente colecta em toda a Internet todos os sítios que se refiram explicitamente a assuntos suecos. A Biblioteca Nacional da Finlândia, através do projecto EVA (Elinkeinoelämän Valtuuskunta - the acquisition and archiving of electronic network publications) segue a mesma orientação da Suécia mas limita as suas operações de captura a intervalos de tempo regulares. No caso português, em sede da Biblioteca Nacional, estuda-se a selecção sobre publicações periódicas electrónicas nacionais, documentos oficiais em formato digital, teses, dissertações e literatura cinzenta produzida na comunidade científica nacional. Lopes, Cardoso & Moreira (2002)61 defendem para Portugal a opção do depósito voluntário em detrimento de uma imposição legal. Segundo estes autores o acordo entre p. ex. editores e Biblioteca Nacional viria permitir a implementação de um sistema de recolha selectiva e ao mesmo tempo criar condições para a definição da estrutura das páginas permitindo a sua actualização periódica. Referimo-nos ainda à extensão da selecção do ponto de vista hipertextual. De que forma devem os links ser seleccionados para preservação? A maior parte das organizações deposita os URLs (Uniform Resource Locator - endereços dos recursos na World Wide Web) e não os conteúdos. A Biblioteca Nacional da Austrália deposita os endereços e os conteúdos dos se estes estiverem contemplados nas linhas orientadoras referidas atrás e a Biblioteca Nacional do Canadá os que residirem no mesmo servidor que os recursos seleccionados. Somente dois projectos depositam integralmente endereços e conteúdos: a Brewster Kale’s Internet Archive, porque o seu objectivo é arquivar uma imagem de toda a Internet e a American Astronomical Society que deposita todos os links de todos os recursos do domínio da astronomia e fá-lo em colaboração com outras sociedades astronómicas, cientistas, universidades e agências governamentais (Hodge, 1999)62. A propriedade intelectual deve ser considerada uma preocupação adicional no processo de selecção de recursos a preservar a longo prazo, nomeadamente quanto à obrigatoriedade 61 62 LOPES, Pedro Faria, CARDOSO, Gustavo & MOREIRA, Maria Vasconcelos (2002) - Preservação de publicações electrónicas na Internet: os arquivos imperfeitos. Cadernos BAD, N. 2. HODGE,G.M. & CARROLL, Bonnie C. (1999) - Digital electronic archiving : the state of the art and the state of the practice. International Council for Scientific and Technical Information 39 3. QUADRO TEÓRICO DE REFERÊNCIA de recolha prévia de autorização dos autores, quer quanto à captura de recursos quer posteriormente quanto ao seu acesso. Citem-se, a propósito, os casos da Suécia e da Finlândia que excluem o contacto com os autores. Pelo contrário, a Biblioteca Nacional da Austrália, no âmbito do seu projecto PANDORA, assim como a Biblioteca Nacional de Portugal, fazem preceder o depósito da aquiescência formal dos criadores. 3.4.3. Identificação persistente dos recursos Depois de seleccionado, o recurso deve ser identificado de forma inequívoca e persistente para que possam ser estabelecidas ligações de longo prazo. A título de exemplo referimos os PURLs (Persistent Uniform Resource Locators) implementados pela OCLC (Online Computer Library Center)63. Do ponto de vista funcional os PURL são endereços URL que ao invés de apontarem directamente para um endereço na Internet, sujeitando-se à instabilidade já por todos experimentada e traduzida na expressão “page not found”, encaminham para um outro serviço, intermédio que nomeia os recursos e que separa a sua localização da sua identificação. Um PURL é composto por três partes: 1) um protocolo ; 2) um endereço de resolução de PURL ; 3) um nome Damos alguns exemplos retirados de Shafer et al., s.d.64 http://purl.oclc.org/keith/home http://purl.oclc.org/OCLC/pull/FAC http://purl.oclc.org/OCLC/OLUC/32127398/1 Protocolo Endereço de re- Nome solução Também em Portugal a identificação persistente é estabelecida através de PURL. Outro sistema de identificação persistente é da responsabilidade da International DOI Foundation e chamado DOI (Digital Object Identifier) 65. 63 64 65 http://purl.oclc.org SHAFER, Keith (s.d.) – Introduction to Persistent Uniform Resource Locators http://www.doi.org 40 3. QUADRO TEÓRICO DE REFERÊNCIA O DOI é um sistema que permite a identificação persistente e a interoperabilidade da propriedade intelectual num ambiente de rede digital. Permite gerir conteúdos intelectuais em qualquer formato, com qualquer nível de granularidade e em qualquer ambiente digital. A estrutura do DOI tem dois componentes: um prefixo e um sufixo e o comprimento é variável. O prefixo identifica a organização que pretende registar DOIs. Em seguida, separado por uma barra encontra-se o sufixo que identifica o recurso. O DOI pode incorporar qualquer identificação já existente como é o caso p. ex. do ISBN, integrado como sufixo. O sistema de resolução é o Handle System66, um standard de arquitectura aberta e escalável da responsabilidade da Corporation for National Research Initiaves67, instituição sediada no estado de Virgínia nos Estados Unidos da América. O DOI encontra-se implementado em numerosos sistemas e detém entre outras, as seguintes potencialidades68 : Persistência Interoperabilidade Extensibilidade Independência de plataforma Actualização dinâmica de metadados, aplicações e serviços. Damos dois exemplos de DOI extraídos de PASKIN, op. cit.69: 10.1000/182 10.1000/ISBN1-900512-44-0 Prefixo Sufixo A opção por PURL ou DOI é, mais uma vez, determinada pela actividade das comunidades implementadoras. 66 67 68 69 http://www.handle.net http://www.cnri.reston.va.us/ PASKIN, Norman (2003) – The DOI handbook. 3rd ed. International DOI Foundation. PASKIN, Norman (2003) – Op. cit. 41 3. QUADRO TEÓRICO DE REFERÊNCIA No caso da OCLC, foi a consciência da existência dos constrangimentos da Internet que podem inviabilizar a leitura dos recursos enquanto estes não são definitivamente depositados em repositórios e respondem por um simples endereço URL. A International DOI Foundation responde pelas necessidades da comunidade de negócios, que pretende garantir além do acesso permanente aos recursos, meta-informação adicional sobre direitos de autor ou outra. 3.4.4. Descrição e acesso dos recursos No contexto da biblioteca digital como no da tradicional encontramos um qualquer documento através de índices, criados com a intenção de tornar os documentos fáceis de descobrir. Esta indexação é estabelecida através de metadados. Os metadados existem para descrição, acesso, gestão e preservação dos recursos depositados no reservatório. Estes podem ser armazenados segundo estruturas de diversos tipos alimentadas pelo elemento humano ou por software de indexação automática. A descrição dos recursos é geralmente construída com base em políticas de gestão de colecções e ao mesmo tempo as características dos metadados variam consoante a tipologia dos dados e o propósito da sua criação. A pertinência e relevância da resposta ao utilizador final está dependente não só da boa qualidade dos metadados como da qualidade e manutenção das ligações, assunto este que não cabe no âmbito deste trabalho. Mais à frente, no ponto 3.7 iremos encontrar desenvolvido o assunto metadados de preservação, os quais, neste caso, são criados especificamente para viabilizar a preservação de longo prazo. 3.4.5. Armazenamento dos recursos As boas práticas de armazenamento, no ciclo de vida dos recursos digitais, devem ser estabelecidas no mais curto espaço de tempo, tendo em conta a rápida e efectiva obsolência de tecnologias e suportes. Existem versões novas de bases de dados, folhas de cálculo e processadores de texto de dois em dois ou três em três anos e enquanto alguns vendedores de software tornam compatíveis as novas versões ou fornecem as estratégias de migração existem outros que não garantem estas condições, o que dá origem a perda de informação e consequente perda da integridade dos dados. O ambiente de hardware não é menos preocupante pois o ritmo de mudança é quase simultâneo. 42 3. QUADRO TEÓRICO DE REFERÊNCIA Também os suportes de armazenamento se deterioram e hoje já podemos considerar perdida muita informação armazenada em velhas bandas magnéticas. Este assunto foi já desenvolvido nos pontos 3.3.2 e 3.3.3. A maior parte das organizações tenta resolver a questão da gestão do armazenamento definindo estratégias de migrações de dados de 3 em 3 ou de 5 em 5 anos (Hodge, 2000)70. O armazenamento faz-se preferencialmente em bandas magnéticas e CDs e os dados devem ser refrescados a intervalos de tempo regulares (Aschenbrenner, 2000)71. 3.4.6. Preservação de longo prazo e recuperação da informação O ambiente digital, dadas as suas características de heterogeneidade e abertura à mudança, torna imperativa a investigação e o consequente surgimento de padrões que viabilizem alguma normalização quanto à segurança do futuro dos recursos. As instituições que já preservam recursos digitais há algum tempo referem que começaram por preservar uma grande variedade de formatos e que esse número tem vindo a diminuir substancialmente, especialmente no que diz respeito a folhas de cálculo e bases de dados (Paskin, 2003)72. Contudo, diz-nos ainda o mesmo autor, que persiste uma baixa consistência na modelação, simulação e objectivos das áreas de software. Muito deste software continua a ser construído especificamente para um dado projecto. Uma das preocupações da preservação digital diz respeito à forma como os recursos aparecem aos olhos do utilizador final, sendo por vezes necessário proporcionar-lhe o contacto com o conteúdo dos recursos assim como o seu look-and-feel ou seja a forma, o aspecto e as características externas de usabilidade. Este problema é em parte resolvido p. ex. através do formato PDF (Portable document format), tanto para o caso de recursos textuais menos formais como é o caso da literatura cinzenta como para publicações periódicas em formato electrónico. Não devemos contudo deixar de realçar que o formato PDF é proprietário, o que constitui mais uma preocupação para a área da preservação. A recuperação da informação é um dos objectivos da preservação e culmina o ciclo de vida dos recursos. Os dispositivos de acesso da Web podem não aceder directamente aos dados, como é o caso de ficheiros em formatos ASCII (American Standards Code for Information Interchange) ou SGML (Standard Generalized Markup Language). Em alguns casos torna-se necessário recorrer a software específico para aceder aos recursos. 70 71 72 HODGE, Gail (2000) – Op. cit. ASCHENBRENNER, A. (2000) – Op. cit. PASKIN, Norman (2003) – Op. cit. 43 3. QUADRO TEÓRICO DE REFERÊNCIA Ainda no que diz respeito ao acesso existe o problema da propriedade intelectual, que tem vindo a ser resolvido através de legislação de depósito legal e licenciamentos. 3.5. INTEGRIDADE, AUTENTICIDADE E AUTENTICAÇÃO DE RECURSOS DIGITAIS Antes de nos debruçarmos sobre a integridade, a autenticidade e a autenticação dos documentos digitais, devemos examinar a natureza dos recursos digitais que os compõem. Os bits não são apreendidos pelos órgãos sensoriais humanos, pois não são artefactos na verdadeira acepção da palavra. Em vez disso devem ser representados, executados, dispostos diante das pessoas pelo hardware e software que os interpreta. Contudo o foco da questão encontra-se em primeiro lugar nos bits. A habilidade necessária para editar os dados passa por colocar o seu conteúdo de forma a poder manipulá-lo (Lynch, 2000)73. O texto marcado em HTML e apresentado através de um Web browser assume uma dimensão sensorial. Recursos digitais constituídos por música, vídeo, imagens, incorporam uma forte componente apelativa dos nossos sentidos. Os bits são os mesmos mas devido às diferenças de hardware e software usados pelos receptores, a experiência obtida através da observação varia substancialmente. Neste ponto encontramos questões relacionadas com a autenticidade e integridade. Em casos extremos temos objectos que são representados de forma experimental, tais como jogos de vídeo ou realidade virtual onde o fulcro é constituído pelos bits e pelo ambiente de representação do sistema ou pelo menos pela interacção entre o recurso digital e a sua representação. 3.5.1. Integridade Para haver integridade não pode haver lugar a corrupções. A mesma sequência de bits que gerou um recurso deve ser mantida ao longo do tempo. Desta maneira, Clifford Lynch em 200074 considera a aplicação de certos algoritmos que permitem responder pela integridade de várias abstracções do recurso e não só pela literal sequência de bits. Não obstante, quando se procura testar a integridade dos recursos são encontradas algumas dificuldades difíceis de ultrapassar. 73 74 LYNCH, Clifford (2000) - Authenticity and integrity in the digital environment : an exploratory analysis of the Central Role of Trust. Washington, CLIR. LYNCH, Clifford (2000) – Op. cit. 44 3. QUADRO TEÓRICO DE REFERÊNCIA Diz-nos Lynch (2000)75 que os testes de integridade podem ser vistos como subprodutos de avaliações de autenticidade, visto que deve existir a comparação de uma determinada versão de um recurso digital com a versão original ou cópia de autoridade. Desta forma, um dos métodos usados para testar a integridade é comparar o recurso com a cópia tida como “verdadeira”. Assim, se o acesso a essa cópia dita verdadeira existir, poderão reproduzir-se outras cópias verdadeiras. Se esse acesso não for possível então os testes de integridade limitam-se à consistência interna. Se o recurso for acompanhado por um digest i.e., uma representação de texto na forma de uma sequência de dígitos, criado através da utilização de uma fórmula intitulada one-wayhash function76, com uma assinatura digital autenticada pode determinar-se se existe consistência entre o recurso e o digest e dessa forma estabelecer o grau de integridade. As assinaturas digitais devem estar ligadas a uma chave pública. Normalmente no momento do depósito é criado um hash i.e., um processo de representação do objecto digital através de uma cadeia de dígitos, que é assinado usando uma chave privada ou o par chave privada/chave pública. A chave pública do par limita-se a uma identidade registada num certificado passado por uma autoridade certificadora. Este processo é satisfatório até ao momento em que ocorre uma migração. Aí a assinatura é alterada. Então, preferencialmente, o repositório deve, ele próprio, assegurar uma assinatura digital para esse recurso e assegurar também que a cadeia de proveniência está devidamente documentada. Ainda Lynch, mas em 199977 refere que os metadados que acompanham cada recurso digital ajudam a manter a integridade referencial das ligações entre recursos ou entre metadados e recursos. Num repositório digital os metadados estão associados a cada recurso com informação descritiva, estrutural, administrativa, de direitos de autor, etc. Estes metadados são mantidos e migram de formato em formato, de padrão em padrão independentemente do recurso base que descrevem. Contudo alguns dos metadados associados a recursos limitam-se à representação do recurso através de uma assinatura digital, 75 76 77 LYNCH, Clifford (2000) - Op. cit. Algoritmo que permite transformar mensagens ou textos numa sequência de dígitos com o propósito de garantir a gestão da segurança cf. Anexo 3. LINCH, Clifford (1999) - Canonicalization : a fundamental tool fo facilitate preservation and management of digital information. D-Lib Magazine, 5 (9) 45 3. QUADRO TEÓRICO DE REFERÊNCIA o que dificulta o processo de associação quando recursos e metadados migram de forma assíncrona. Lynch em 1999 (op. cit.)78 sugere a aplicação de um método a que o autor chama “canonicalization”, onde a utilização de formatos e algoritmos padronizados para vários tipos de recursos são a solução para o problema da reparabilidade. Estes podem ser usados para extrair a essência, isto é, o fluxo de bits acompanhado de informação sobre a sua proveniência, neste caso ao nível da computacão propriamente dita e não da custódia. É p. ex. o caso de uma assinatura digital. O problema reside na definição consensual do algoritmo ou algoritmos correctos para um determinado contexto. A forma canónica, que contém as características essenciais de determinada classe de formatos de recursos não deve ser utilizada pelos repositórios, pois irá incrementar injustificadamente a necessidade de espaço. É ainda, segundo o mesmo autor, uma forma idealizada de formato, sem contrapartida ao nível da eficácia. 3.5.2. Autenticidade A verificação da autenticidade, destina-se ao conteúdo dos recursos digitais e à forma como estes foram criados, existe no contexto dos métodos de identificação e verificação dos recursos, e não deve por isso ser confundida com autenticação, que aprofundaremos no ponto seguinte e que existe no contexto da identificação e verificação da identidade do assinante do recurso (Bearman & Trant, 1998)79. Podemos questionar-nos se será possível em ambiente digital distinguir entre um original e uma fraude ou falsificação. A questão da fraude, quer no âmbito das actividades desenvolvidas pela sociedade civil, quer no campo forense mantém permanentes fora de discussão e conduz à criação de cadeias de autoridade cada vez mais especializadas que interpõem uma barreira às intenções fraudulentas; contudo o ambiente digital distribuído facilita a penetração de intenções menos sérias. Algumas das mais promissoras qualidades dos recursos digitais, tais como as relacionadas com a interactividade, são aquelas que revelam mais problemas de controlo de autenticidade. 78 79 LINCH, Clifford (1999) - Op. cit. BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement of requirements in the research process. D-Lib Magazine, June. 46 3. QUADRO TEÓRICO DE REFERÊNCIA É interessante notar que sempre que existe um salto inovador na natureza dos processos de edição, caso da tipografia, p. ex. redobram os estudos do âmbito da disciplina da Diplomática. É também o caso da autenticidade digital. Bearman & Trant, op. cit., distinguem três métodos na busca de uma solução dos diferentes problemas de autenticidade digital: 1) Métodos públicos ligados à autenticidade das fontes, que incluem : - A criação de depósito do copyright - O depósito certificado das fontes originais combinado com serviços de certificação de recursos - O registo de identificadores únicos dos recursos - A publicação dos dados das chaves dos recursos que depois de hashed ou calculadas de outra forma devem representar os recursos em causa - A definição de estruturas de metadados para autenticação ou prova 2) Métodos confidenciais que envolvem o encobrimento de alguns dados do recurso - Marcas de água - Esteganografia - Assinaturas digitais 3) Métodos funcionais que empregam tecnologias específicas em conjunto com os recursos - Encapsulação tanto física como lógica - Encriptação - Inserção de agentes Cada uma destas tecnologias ultrapassa os problemas da autenticação de recursos. Deve subsistir um ambiente tal que seja seguro e dê garantias de integridade e autenticidade de um recurso recuperado em determinado momento, depois de migrado de plataforma em plataforma. 47 3. QUADRO TEÓRICO DE REFERÊNCIA Peter Hirtle em 200080 apresenta um interessante exemplo de autenticidade da era prédigital com evidente extensão aos novos paradigmas: os estudos de verificação de autenticidade da fragata “Constellation”, considerada durante décadas como datada de 1797, na cidade de Baltimore nos EUA. As provas da sua autenticidade foram forjadas e em 2000 encontravam-se no domínio forense e eram matéria de investigação para o FBI. A analogia do tradicional ao digital é usada por Hirtle op. cit. que não deixa de referir que para interpretar documentos de arquivo é necessário compreender a natureza do ambiente de arquivo, pois um conjunto de artefactos históricos não consubstancia um arquivo. Um arquivo é, segundo ele, um corpo orgânico, contextualizado, não uma simples colecção de artefactos. Os arquivos existem unicamente quando se verifica uma contínua cadeia de custódia dos documentos, de âmbito organizacional, desde a sua criação até ao seu depósito. Vamos encontrar ainda em Hirtle, op. cit. referência a algumas iniciativas no âmbito da autenticidade dos recursos digitais de arquivo: “Functional requirements for evidence in recordkeeping”81 – Projecto que decorreu entre 1992 e 1996 e que desenvolveu requisitos funcionais para a Universidade de Pittsburgh. David Bearman, consultor deste projecto propôs um conjunto de requisitos de metadados adaptados a várias áreas do conhecimento, consoante as necessidades das comunidades envolvidas. O objectivo era criar registos constituídos por metadados encapsulados, por forma a que a autenticidade, a integridade, a confiança e a usabilidade dos conteúdos estivessem garantidas. Projecto conjunto da “University of British Columbia” e da InterPARES (International Research on Permanent Authentic Records in Electronic Systems), subordinado ao título : “Preservation of the integrity of electronic records”82. Decorreu entre 1994 e 1997. A equipa de trabalho liderada por Luciana Duranti83 constituiu-se por grupos em diversas localidades geográficas : Australia, Canadá, China, União Europeia, Itália, Estados Unidos e ainda um grupo de interesses corporativos industrial. O projecto incidiu na via da Diplomática e nas suas conclusões considera requisito essencial para assegurar a autenticidade ao longo do tempo que as operações de 80 81 82 83 HIRTLE, Peter B. (2000) - Archival authenticity in a digital age. In: Authenticity in a digital environment. Washington, CLIR, p. 8-21. http://web.archive.org/web/19981203042506/www.sis.pitt.edu/~nhprc/ http://www.cc.ubc.ca/ccandc/feb96/email.html http://www.interpares.org/UBCProject/intro.htm 48 3. QUADRO TEÓRICO DE REFERÊNCIA rotina de transferência de ficheiros para uma terceira parte, neutral, confiável, com competência para garantir autenticação, sejam feitas por analogia com a arquivologia tradicional. O projecto InterPARES, que publicou os seus resultados em 200284 em relatório subordinado ao título “The long term preservation of authentic electronic records” conduzido de 1999 a 2001, também baseou as suas conclusões na Diplomática contemporânea. Diz-nos Luciana Duranti em 200185 que este projecto se destinava a desenvolver conhecimento teórico e metodológico essencial para a preservação permanente de registos autênticos gerados ou mantidos electronicamente. Baseados no conhecimento adquirido seriam capazes de formular políticas e estratégias e propor o estabelecimento de padrões capazes de assegurar preservação digital de longo prazo. No âmbito deste projecto foi estudada a criação de um enquadramento conceptual para o estabelecimento de requisitos para preservação de recursos digitais autênticos. Não obstante, subsistem muitas questões em aberto para posteriores investigações. Destaca-se a área do desenvolvimento tecnológico onde, entre outras, as assinaturas digitais para autenticação de recursos são causa de grande apreensão na área da gestão da preservação digital de longo prazo. 3.5.3. Autenticação Seguimos a definição de autenticação encontrada no relatório do projecto InterPARES, referenciado atrás86: A autenticação é estabelecida através de uma declaração de autenticidade de um registo num determinado momento por uma entidade juridicamente responsável pela emissão dessa declaração. Segundo Bearman, 199887 a autenticação está relacionada unicamente com permissões de acesso. Partindo do princípio de que as entidades oficiais são responsáveis pelo aparecimento de grande parte dos recursos que se destinam a incorporar depósitos credenciados visto que são criadoras de princípios legais, registam actos de tribunais, etc, a autenticação destes é fundamental num ambiente seguro e confiável. 84 85 86 87 http://www.interpares.org/book/index.cfm DURANTI, Luciana (2001) – The long term preservation of authentic electronic records. In : APERS, M. G. et al. (eds.): VLDB 2001, Proceedings of 27th International Conference on Very Large Data Bases, September 11-14, 2001, Roma, Italy. Morgan Kaufman, ISBN 1-55860-804-4 http://www.interpares.org/book/index.cfm BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement of requirements in the research process. D-Lib Magazine, June 49 3. QUADRO TEÓRICO DE REFERÊNCIA Para que este ambiente exista, a política de acesso deve basear-se em infraestruturas de chaves públicas, assinaturas digitais, encriptações, etc. As assinaturas digitais são exemplo das tecnologias de autenticação que têm sido desenvolvidas no sentido de assegurar que as comunicações electrónicas através de redes e da Internet em particular possam ser consideradas seguras. As assinaturas digitais que identificam o assinante de determinado recurso e verificam se não houve alterações durante a transmissão, podem constituir um dos métodos de autenticação mas são não por si só suficientes para estabelecer a autenticidade do recurso a longo prazo. Arne Ansper et al. em 200188 apresentam uma proposta de autenticação de assinaturas digitais de longo prazo baseada na assunção de que é válida toda a assinatura criada antes do certificado de validação ter sido revogado. Na figura 1 reproduzimos o modelo de serviço de notário proposto por estes autores, na qual estão envolvidas cinco partes : (1) Uma autoridade certificadora que atesta que as chaves públicas estão ligadas aos seus detentores (2) Um assinante que depois de obter uma chave pública certificada pela entidade certificadora cria uma assinatura digital (3) Uma terceira parte interessada, a qual recebe uma assinatura digital do assinante e que tem interesse que esta mantenha valor probatório (4) Um notário que representa um serviço de confirmação da validade da assinatura num determinado momento (5) Um juiz que vai julgar, em determinado momento se a assinatura é ou não válida Vejamos esquematicamente como funciona: 50 3. QUADRO TEÓRICO DE REFERÊNCIA Parte Autoridade certificadora Certificado Validação da informação Assinatura, interessada Confirmação Certificado Assinatura, Certificado Assinatura digital Assinante Notário Juíz Fig. 1. - Modelo de validação de assinaturas (Ansper, 2001, op. cit.)89 Este modelo vai permitir que o assinante, perante qualquer suspeição, revogue o certificado e a chave pública permite em tempo útil informar todas as partes da revogação da assinatura. No ambiente académico, uma forma de autenticar dados é através de “peer review”. É um processo utilizado pela casas editoras mais importantes de publicações periódicas em formato digital, mas que também já existia para o suporte papel. É condição para publicação de um artigo científico que este seja avalizado, referendando-se, assim, a sua mais valia científica por peritos internacionais na área temática. Os habituais criadores de conteúdos na Internet, tanto singulares como colectivos, nem sempre se preocupam com as múltiplas versões dos seus trabalhos e na maior parte das vezes não é possível determinar qual é a versão mais recente ou mais actualizada, nem mesmo determinar a sua autenticidade, dado que nem foram autenticados por nenhuma autoridade certificadora. Meg Bellinger, em relatório da OCLC90 diz-nos que esta organização está interessada em discutir a adaptação de software de autenticação a partir de uma terceira parte. 88 89 90 ANSPER, Arne et al. (2001) - Efficient long-term validation of digital signatures. Lecture Notes in Computer Science, 1992. ANSPER, A et al. (2001) – Op. cit. BELLINGER, Meg (2002) - Understanding digital preservation : a report from OCLC. CLIR 51 3. QUADRO TEÓRICO DE REFERÊNCIA Este software tem as funções de um notário público digital, tal como o modelo de Ansper et al., 200191 que vimos anteriormente. O criador do recurso digital usa o software para incluir uma assinatura digital e uma marca temporal. Essa informação é enviada à empresa que detém o software de autenticação para preservação de longo prazo. O serviço também regista alterações de detenção de direitos e verifica ulteriormente a sua autenticidade e proveniência dos recursos. É também de assinalar a importância que têm nesta matéria identificadores persistentes tais como os PURL (Persistent Uniforme Resource Locator) ou DOI (Digital object identifiers). Estes, por serem atribuídos uma única vez, são mais um elemento a utilizar como meio de segurança e autenticação de recursos digitais. Em trabalho de Polivy & Tamassia, 200292, vamos encontrar uma proposta de solução para a autenticação de recursos digitais muito complexos, que agregam informação de diferentes fontes, tais como boletins meteorológicos, notícias de jornais, preços de determinadas mercadorias, etc, e os disponibiliza aos seus utilizadores. Essa proposta intitula-se “Authenticated dictionary” e existe no âmbito do STMS (Secure Transaction Management System) (Tamassia 2001)93. O STMS é um sistema distribuído de autenticação de dados constituído por uma estrutura de dados que suporta interrogações de utilizadores autorizados. Quando um utilizador interroga um STMS, é devolvida uma resposta e também uma prova da autenticidade dessa resposta. A prova pode ser da responsabilidade do STMS ou pode ser encontrada através de um qualquer repositório credenciado. A novidade é a abordagem de assinaturas XML (Bartel, 2002)94. O standard de assinaturas digitais XML comporta um conjunto de normas e sintaxe XML para codificar, processar e verificar assinaturas digitais de dados arbitrários. Adicionalmente fornece autenticação e testa a integridade dos dados. Uma característica fundamental da assinatura XML é a sua capacidade de assinar somente partes específicas da árvore XML em vez da totalidade do documento. Esta característica torna-se importante quando existem várias peças de informação agregadas provenientes de diferentes fontes, cada qual com as suas características de autenticação. 91 92 93 94 ANSPER, A. et al. (2001) – Op. cit. POLIVY, Daniel J. & TAMASSIA, Roberto (2002) - Authenticating distributed data using web services and XML signatures. Proc. ACM Workshop on XML Security, ACM Press, 2002 (em publicação) TAMASSIA, Roberto (2001) – Efficient low-cost authentication of distributed data and transactions. Conduit 10 (2) BARTEL, J., et al. (2002) – Sygnature syntax and processing. : W3C Recommendation. February. 52 3. QUADRO TEÓRICO DE REFERÊNCIA Apresentamos duas figuras extraídas do mesmo trabalho de Bartel95, a primeira reporta-se ao serviço STMS (Secure Transaction Management Systems) e a outra é um exemplo de uma assinatura XML associada com uma resposta STMS. Fig. 2 – Arquitectura STMS (Polivy & Tamassia, 2002) 95 BARTEL, J., et al. (2002) – Op. cit. 53 3. QUADRO TEÓRICO DE REFERÊNCIA Fig. 3 – Codificação XML do documento base e da prova (Polivy & Tamassia, 2002) Existe uma grande actividade de desenvolvimento de metodologias para combater os problemas inerentes à integridade, autenticidade e autenticação de recursos digitais. Determinar quais os melhores métodos para determinados fins só é possível se os requisitos funcionais para a autenticidade forem seguidos por parte dos criadores e utilizadores potenciais. Não existe uma solução única, devem ser tidos em conta os vários requisitos de autenticidade i.e., durante todo o ciclo de vida dos recursos digitais devem ser respeitadas todas as normas e seguidos todos os padrões no que diz respeito à existência de chaves públicas e privadas, marcas de água, encriptações, identificadores persistentes, declarações de autenticação, etc. A tecnologia padronizada e disponível deve ser utilizada no sentido de tentar impedir perdas, por ausência de capacidade de reconhecimento de autenticidade, de informação que pode ter características probatórias ou que pode ainda vir a tornar-se historicamente importante. 3.6. ESTRATÉGIAS DE PRESERVAÇÃO DIGITAL Os documentos produzidos em suporte papel não ácido, com boas tintas vegetais e armazenados em ambiente frio, seco e escuro podem, provavelmente, subsistir durante mais de mil anos. 54 3. QUADRO TEÓRICO DE REFERÊNCIA Os documentos digitais, armazenados em qualquer suporte electrónico ou magnético, estarão provavelmente irrecuperáveis dentro de 10 anos. O suporte físico deteriora-se, o hardware desaparece do mercado, o software de interpretação da informação é descontinuado ou simplesmente já tiveram lugar várias gerações e há, assim, perdas sucessivas de informação. Torna-se, deste modo necessário, transferir regularmente os recursos digitais para novas plataformas. Seja qual for a estratégia escolhida, o principal objectivo da preservação de longo prazo é assegurar a longevidade e a manutenção da integridade intelectual dos recursos digitais (Grout, Purdy and Rymer >2000)96. Existem caminhos distintos para contornar os problemas da obsolência tecnológica e segundo o Digital Preservation Testbed White Paper, 200197 consolidaram-se, hoje em dia, várias estratégias : 3.6.1. Preservação tecnológica e impressão em papel Uma das primeiras opções a ser usada foi a preservação tecnológica dos meios de acesso aos recursos originais por tanto tempo quanto o necessário. Esta opção estratégica obriga a que tanto o hardware como o software sejam mantidos em boas condições para que sempre que seja necessário aceder aos recursos criados nesse ambiente a resposta seja efectiva. A preservação tecnológica é considerada bastante dispendiosa e tecnologicamente complexa pois é indispensável manter competências para operar com os sistemas que se vão tornando obsoletos. A acrescentar aos problemas de obsolência existe o risco de descontinuidade no fabricante. Apesar de na prática ainda ser uma opção utilizada por muitas organizações, podemos considerá-la em declínio. A opção da impressão em papel, tal como a preservação tecnológica continua a ser usada apesar de não ser viável para muitos recursos digitais. Quando os recursos a preservar são texto, gráficos, fotografias ou outros formatos passíveis de reprodução em papel podemos encontrar organizações que recorrem a essa estratégia. 96 97 GROUT, Catherine, PURDY, Phill & RYMER, Janine (>2000) - Creating digital resources for the visual arts : standards and good practice. AHDS/VADS, Guides to good practice DIGITAL PRESERVATION TESTBED WHITE PAPER (2001) – Migration : context and current status. ICTU 55 3. QUADRO TEÓRICO DE REFERÊNCIA No que diz respeito a bases de dados ou recursos multimédia existe a incapacidade de preservar certas características tais como movimento, som, fórmulas, estruturas de informação, etc. 3.6.3. Emulação Trata-se de utilizar tecnologias actuais e sobre elas reconstituir as funcionalidades e o ambiente de tecnologias que, entretanto, se tornaram obsoletas. Por meio da emulação é possível aceder à cópia exacta do recurso original e do seu ambiente e ter a consequente sensação do look-and-feel. Por exemplo, o hardware de um Commodore C-64 pode ser emulado num processador Pentium. Da mesma maneira o sistema operativo pode ser instalado nesse ambiente virtual o que permite que o processamento do software original corra normalmente. Os defensores desta estratégia advogam que talvez seja a única solução capaz de preservar um documento na sua forma original a longo prazo (Rothenberg, 1999)98, dadas as múltiplas actualizações tecnológicas a que as instituições inevitavelmente se submetem. Como pré-requisito de qualquer actividade de preservação por emulação deve existir uma descrição da tecnologia usada durante a criação do recurso. Por conseguinte, como boa prática, devem ser encapsulados: O recurso digital propriamente dito acompanhado pelo software ou softwares que o contextualizam, incluindo o sistema operativo, as aplicações e quaisquer outras informações consideradas necessárias As especificações sobre o emulador a usar no sistema futuro por forma a fornecer informação para a recriação da plataforma original. Deve incluir uma descrição do software, um histórico do ciclo de vida do recurso digital e quaisquer outros elementos considerados necessários A emulação pode ter lugar a dois níveis, ao nível do software e ao nível do hardware. O primeiro diz respeito ao ambiente do software que deve ser recriado para aceder aos recursos. Esse objectivo pode ser atingido emulando a aplicação original e o sistema operativo onde a aplicação corre. Existe no entanto alguma dificuldade para descrever aplicações de forma a que possam ser reproduzidas posteriormente. Este problema complica-se bastante quando pensamos em multimédia e hipermédia (Granger, 2000)99, conceitos que estão, eles próprios em actualização constante. 98 99 ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR (Expanded version) GRANGER, Stewart (2000) - Emulation as a digital preservation strategy. D-Lib Magazine, 6 (10) 56 3. QUADRO TEÓRICO DE REFERÊNCIA Existe ainda a possibilidade de emular o ambiente de hardware emulado em software através de informação detalhada acerca das suas características. Segundo Lawrence et al. em 2000100, para que a emulação tenha sucesso é necessário criar um conjunto formado por : o ficheiro a preservar, a aplicação que deu origem ao ficheiro, o sistema operativo onde a aplicação corria, o ambiente de hardware emulado em software usando informação detalhada acerca das suas características. Podemos considerar esta estratégia bastante complexa e difícil de implementar na prática, dado o leque variado de necessidades efectivas a preencher e que na maior parte das vezes não é possível atingir. 3.6.4. Migração Trata-se de transportar os recursos digitais de uma plataforma para outra, adaptando-os aos ambientes de chegada, de cada vez que hardware e/ou software se tornam obsoletos ou em antecipação a essa própria obsolência. É vulgar que estes processos, que provocam sempre alguma reescrita dos recursos transportados, introduzam particularidades novas susceptíveis de serem interpretadas como corrupção do seu estado original. Dado o curto período de vida útil das tecnologias não é raro a preservação implicar a submissão dos recursos a migrações múltiplas, com perdas crescentes das suas características originais. Neste caso é frequente a observação de corrupções cumulativas que podem alterar substancialmente a sua aparência original, estrutura, interactividade e look-and-feel (Rothenberg, 2000)101. Em alguns casos a transferência de formatos raros torna-se impossível e pode sobrevir a perda total dos recursos. É o caso de algumas formas de arte interactiva (Aschenbrenner, op. cit.)102. Outro exemplo, este bastante mais corrente, é a simples migração de ficheiros do tipo Word ou Excel para versões mais actuais onde por vezes se alteram certas funcionalidades e características de layout. 100 101 102 LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format investigation. CLIR ROTHENBERG, Jeff (2000) - An experiment in using emulation to preserve digital publications. Den Haag, Koninklijke Bibliotheek. 70 p. ISBN 9062-59-1442 ASHENBRENNER, A. (2001) – Op. cit. 57 3. QUADRO TEÓRICO DE REFERÊNCIA Segundo Paul Wheatley em 2001103 só existe uma forma de evitar este risco que é o processo de migração reversível proposto pelo modelo OAIS (Open Archive Information System)104,105, como um dos tipos de migração possível de implementar e que são : 1) Refrescamento – operação realizada quando se copia a partir de um suporte para outro idêntico, o que, em princípio, não danifica o conteúdo 2) Cópia – operação de réplica para outro ou para o mesmo suporte 3) Reempacotamento106 – A migração envolve reempacotamento quando existem alterações durante o empacotamento 4) Transformação – A migração que acarreta alteração do conteúdo da informação é referida no modelo OAIS como transformação e pode ser: (a) reversível - Diz-se quando uma nova representação define um conjunto ou subconjunto de novas entidades que são equivalentes às definidas pela representação original. Isto quer dizer que existe a possibilidade de um movimento à retaguarda, passo a passo, até à representação original. P. ex. uma representação que usa o código ASCII de A a Z substituída por uma representação que usa o código UNICODE UTF-16 de A a Z. Esta transformação resulta numa substituição do código de 7-bit pelo de 16-bit. A operação inversa é conseguida se substituirmos o código UNICODE UTF-16 de A a Z pelo ASCII de A a Z. Neste caso o original é recuperado. (b) não reversível – Diz-se quando não é possível reverter com eficácia toda a operação de transformação. Esta ocorrência pode dar-se quando as entidades resultantes não são semanticamente equivalentes. Na gestão dos repositórios é de toda a conveniência que se adopte um pequeno número de padrões de aceitação para os quais de deve proceder a conversão de todos os recursos capturados. Por esta via conseguir-se-á a diminuição drástica dos esforços futuros de migração. Formatos padrão são p. ex: ASCII para texto, TIFF para imagens e PostScript para apresentação do layout. Uma animação muito sofisticada poderá ser preservada a partir de uma série de screen-shots (Aschenbrenner, op. cit.). Como consequência, serão necessários menos conversores em qualquer dos ciclos de conversão. 103 104 105 106 WHEATLEY, Paul (2001) – Migration : a CAMiLEON discussion paper. Ariadne, 29 O modelo conceptual de referência OAIS é abordado no ponto 4.1.5 desta dissertação http://wwwclassic.ccsds.org/documents/pdf/CCSDS-650.0-B-1.pdf Os termos empacotamento e reempacotamento fazem parte da terminologia própria do modelo conceptual OAIS 58 3. QUADRO TEÓRICO DE REFERÊNCIA Outro aspecto a considerar é a existência de formatos proprietários que limitam o acesso ao software e que aduzem constrangimentos legais. Uma vantagem da migração é o rápido acesso ao recurso. Dado que o formato é standard em qualquer altura o documento pode ser acedido. Na maior parte dos casos a conversão dos recursos digitais dá-se em circunstâncias tidas como suficientes pela comunidade de utilizadores, mesmo com perda de algum look-and-feel. 3.6.5. Encapsulação A estratégia da encapsulação tem como objectivo a preservação do formato original. A linguagem XML é tida como capaz de assegurar o encapsulamento dos metadados e das instruções necessárias à interpretação do original, sendo possível combiná-la com outras estratégias, como é o caso da emulação107. Na presença da existência de uma colecção de metadados previamente determinada, estes podem ser expressos na forma de esquema XML que pode ser reutilizado em colecções de recursos que correspondam a essas especificações. Esta normalização torna-se importante na medida em que facilita o trabalho do repositório digital na opção por esquemas de metadados. Na Austrália, encontramos o projecto VERS (Victorian Electronic Records Strategy) que implementou esta estratégia com sucesso e no seu relatório final108 apresenta as seguintes conclusões: Os recursos, o contexto e informação de autenticação devem ser encapsulados num único objecto e não separadamente A estrutura dos dados deve permitir a inclusão de metadados em camadas A linguagem XML deve ser usada para codificação dos recursos a depositar Cada recurso deve apresentar uma assinatura digital 3.6.6. Software Máquina Virtual (UVC - Universal Virtual Computer) Opção tida como variante da emulação proposta por Raymond Lorie da IBM em trabalho conjunto com a Biblioteca Nacional da Holanda (Koninklijke Bibliotheek) em 2001109,110. 107 108 109 110 Digital Preservation Testbed Project (2002) – XML and digital preservation. http://www.prov.vic.gov.au/vers/published/final.htm LORIE, R. A. (2001) The long term preservation of digital information. RLG DigiNews. 5 (3) IBM/KB (2001) – Long term preservation study. DNEP. 59 3. QUADRO TEÓRICO DE REFERÊNCIA Consiste num software que é aplicado a um recurso no momento do depósito, gerando um programa executável do qual consta a descrição de todas as características do recurso. Recurso e executável são preservados em conjunto. Este executável deve posteriormente correr num ambiente de interpretação próprio software UVC (Universal Virtual Computer) que proporciona a reconstituição do original. A estratégia UVC pode abranger o depósito de programas no sentido do desenvolvimento de emuladores mesmo no desconhecimento da máquina alvo. Ao invés de depositar o fluxo de bits e o programa que o descodifica, devem ser depositados o programa original em conjunto com um emulador da máquina, escritos em linguagem UVC, e também qualquer ficheiro de dados que seja necessário para correr a aplicação original. Os metadados devem fornecer explicações quanto à forma de correr o programa. Segundo Lorie, 2001, op. cit, através desta estratégia pretende-se diminuir a dependência de normas. Ao escrever para cada novo formato um programa UVC que o descodifique assegurará segundo este autor a preservação dos dados para o futuro. 3.6.7. XML (Extensible Markup Language) A linguagem XML pode ser vista como um tipo particular de migração. É uma linguagem de enriquecimento de informação sobre estruturas e significado. Sendo independente da plataforma onde vai correr é um padrão aberto. Favorece a interoperabilidade e pode ser usado como formato de criação de documentos. Pode considerar-se como uma estratégia de preservação por si só. Por vezes a opção XML e o formato PDF são considerados como disputando o mesmo território para a preservação a longo prazo, mas como, na verdade, são bastante complementares será mais apropriado orientar a estratégia pela utilização dos dois do que optar por um único111 e desta maneira o risco de perda diminui. Mas existe uma opção estratégica ? No contexto de um repositório digital que periodicamente tem que gerir conversões de dados e migrações de hardware para fazer face a obsolências e desactualizações o objectivo é a preservação da totalidade do conteúdo da informação de cada recurso, por vezes incluindo o look-and-feel, a substituição do velho pelo novo e o controlo total das operações de transferência. 111 Digital Preservation Testbed Project (2002), op. cit. 60 3. QUADRO TEÓRICO DE REFERÊNCIA Ao optar pela estratégia da migração o repositório fica impossibilitado de saber o que deixa em herança. É impossível prever quantas vezes vai ser necessário migrar. Os standards podem ter uma vida curta no ambiente digital. Cabe também referir que o nível de corrupção depende em grande parte das boas práticas seguidas durante a criação dos recursos digitais a preservar, e também das técnicas de reparabilidade usadas e dos metadados que as documentam. Os pontos críticos da migração estão relacionados com o muito trabalho que acarreta, a morosidade do processo, o alto custo devido às sucessivas migrações, a ausência de escalabilidade, a perda da forma original e a corrupção do look-and-feel. A opção estratégica da emulação por outro lado torna-se polémica e motivo de discussão científica como podemos verificar no trabalho de Granger, 2000 atrás citado 112, onde este autor questiona as opções de Rothenberg aparecidas em 1999113. Também Lawrence et al. (op. cit.)114 considera que não existe sistema capaz de manter os emuladores - manter emuladores obsoletos torna-se tão problemático como manter ficheiros em formatos obsoletos. O projecto CAMiLEON (Creative Archiving at Michigan and Leeds)115 tem como objectivo, precisamente, aplicar a estratégia da emulação à preservação digital de longo prazo. Também o projecto NEDLIB (Networkd European Deposit Library)116 manifesta a intenção de promover o desenvolvimento do estudo da emulação como tecnologia a aplicar. Digamos que, antes de 2000-2001, a emulação teve expressão nalguns projectos, mas a Biblioteca Nacional da Austrália117 manifesta a intenção de fazer aplicar ambas as estratégias, migração e emulação e à medida que os resultados forem surgindo e a experiência aumentar talvez seja possível optar, consoante as variáveis envolvidas, por uma ou outra, ou pela aplicação de ambas. Mesmo que o look-and-feel dos recursos tenha sido alterado durante o processo de preservação esse facto pode não ser relevante para as necessidades dos utilizadores. Cabe-nos por isso atender à natureza dos recursos e às necessidades das comunidades de utilizadores do nosso tempo para podermos projectá-las para as comunidades do futuro. 112 113 114 115 116 117 GRANGER, S. (2000) – Op. cit. ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR (Expanded version) LAWRENCE, et al. (2000) – Op. cit. http://www.si.umich.edu/CAMILEON http://www.kb.nl/coop/nedlib/results/NEDLIBemulation.pdf http://www.nla.gov.au/preserve/pmeta.html 61 3. QUADRO TEÓRICO DE REFERÊNCIA Seja qual for a estratégia a desenvolver pelo repositório digital, o seu desempenho só terá sucesso se forem seguidas boas práticas e se a criação de metadados de preservação estiver prevista ao longo de todas as fases do ciclo de vida do recurso digital. 3.7. METADADOS DE PRESERVAÇÃO DE LONGO PRAZO Definimos metadados de preservação de longo prazo como informação de apoio aos processos associados com a preservação digital de longo prazo. Em ambiente digital, os recursos digitais sofrem transformações, cujos resultados nem sempre são fáceis de controlar, motivo pelo qual deve ser criado um histórico da mudança ao longo do tempo com o objectivo, entre outros, de garantir que os mecanismos que atestam a autenticidade e a integridade dos mesmos possam ser recompostos. De igual maneira, as tecnologias de acesso aos recursos digitais rapidamente se tornam obsoletas e por isso haverá que encapsular informação acerca dos suportes de armazenamento, hardware, sistema operativo e respectivos softwares utilizados durante o ciclo de vida dos recursos. Os metadados de preservação devem armazenar informação técnica e administrativa sobre decisões e acções de preservação, registar os efeitos das estratégias de conversão de dados, assegurar a autenticidade dos recursos digitais ao longo do tempo e registar informação acerca de gestão de colecções e de direitos. Em Borbinha (2001)118, encontramos referidos um conjunto de objectivos para os metadados, que são : Descrição bibliográfica dos recursos Gestão administrativa dos recursos Preservação dos recursos Descrição estrutural e técnica dos recursos Acesso, uso e reprodução dos recursos Gestão administrativa dos próprios metadados Do estrito ponto de vista da preservação digital de longo prazo, apesar de todos os objectivos apresentados serem indispensáveis à boa gestão dos recursos antes e depois de depo- 118 BORBINHA, José (2001) - Metadata – Conceito e sua relevância para as bibliotecas. Actas do 7º Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas. Porto, 2001 62 3. QUADRO TEÓRICO DE REFERÊNCIA sitados num repositório, interessa-nos, particularmente, o objectivo de dar informação acerca dos requisitos e condições, técnicas ou formais de preservação de longo prazo. Segundo o “OCLC/RLG Working Group on preservation metadata”119 as características fundamentais dos metadados de preservação são as seguintes: Abrangência, i.e., devem ser constituídos por todos os requisitos informacionais necessários à gestão de um repositório desde a sua inclusão até à sua disponibilização e acesso. Estruturação, ou seja, devem apresentar uma descrição de alto nível dos componentes chave do sistema e das suas funcionalidades. Este ponto vem complementar o primeiro. Aplicação alargada, i.e., os metadados de preservação devem poder aplicar-se a um leque variado de tipos de recursos digitais, de actividades e de instituições. Uma estrutura de metadados de preservação representa o consenso de um grupo de trabalho e deve ser imparcial sobre assuntos relacionados com as opções de estratégias de preservação. Referindo-nos ao ciclo de vida dos recursos e à fase da criação, é importante que da parte dos repositórios se alertem os criadores para a inserção dos metadados necessários. Damos como exemplo as linhas orientadoras da AHDS (Arts and Humanities Data Service) para os produtores de modelos em CAD120. Enquanto o trabalho está em mãos é muito mais fácil recordar os passos dados para construir o modelo. A documentação produzida ajudará tanto os próprios membros da equipa de trabalho como no futuro será uma componente vital no processo de preservação a longo prazo. É desnecessária uma documentação exaustiva de todo o processo criativo mas fundamental documentar algumas fases do processo dado que cada projecto pode conter um número alargado de modelos. Assim, para cada projecto devem ser fornecidos metadados que contenham: Uma descrição alargada, em diagonal, de todo o projecto Métodos e normas usados no projecto 119 120 OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital objects : a review of the state of the art : a white paper EITELJORG II, Harrison et al. (2002) - Archaeology Data Service CAD : A Guide to Good Practice. AHDS 63 3. QUADRO TEÓRICO DE REFERÊNCIA Descrição individualizada dos modelos no projecto Para cada projecto deve ser fornecida uma lista dos ficheiros criados que deve incluir : Nome do ficheiro Data de criação ou da última actualização Formato dos dados e número da versão utilizada Descrição do conteúdo Copyright associado De igual modo para cada modelo os criadores devem também dar a conhecer informação sobre os modelos através de: Título do projecto Número de referência Criador Título do modelo CAD Software CAD Ficheiros usados E ainda informação para algumas bases de dados associadas, que deve incluir : Título do projecto Referência do projecto Base de dados c/ versão e tipo Título das tabelas ou ficheiros, assim como número de referência Campos da tabela Título do ficheiro CAD que está associado à BD Formato do ficheiro Data de criação da BD 64 3. QUADRO TEÓRICO DE REFERÊNCIA Sem a ajuda destes elementos de metadados não será possível reconstruir os modelos posteriormente. Cabe desta forma a cada repositório encaminhar os depositantes para uma conduta baseada no seguimento de boas práticas e verificar no acto de depósito se estas foram cumpridas. 3.7.1. Comunidades temáticas e respectivas necessidades de metadados Os inúmeros repositórios de preservação de recursos digitais de longo prazo existentes têm sido construídos seguindo as necessidades de determinadas comunidades temáticas. Estas, face à consciência da existência real de perigo da perda de dados científicos de interesse nacional estratégico, desenvolveram os seus próprios modelos de repositórios que desempenham bem as respectivas funções, mas que dado o seu âmbito restrito contêm limitações, se usados por comunidades de outros domínios temáticos. Em CCSDS, 2002121 encontramos referência às exigências de metadados a que estão sujeitos os depositantes de alguns repositórios temáticos que passamos a descrever sucintamente Planetary Data System Archive122 Trata-se um repositório americano, distribuído, que serve a comunidade da NASA relativa a ciências planetárias. É constituído por um nó central no Jet Propulsion Laboratory e por sua vez outros nós de subdivisão temática, para as geociências, atmosfera, interacções planetárias de plasma, etc. Estes nós estão distribuídos por universidades em todo o país. Os interessado em depositar recursos neste espaço de preservação são obrigados a seguir linhas orientadoras. Os metadados que acompanham os dados no acto de admissão no repositório são cuidadosamente comparados com os elementos que constam de uma lista de terminologia agregada ao sistema. Também podem ser acrescentados novos elementos se for considerado oportuno. Os metadados base para constituição do repositório constam dos seguintes ficheiros : - AAREADME.TXT : texto resumido do conteúdo dos dados - VOLDESC.SFD : etiquetas normalizadas dos pacote de dados 121 122 Consultative Committee for Space Data Systems (2002) – Reference Model for an Open archive Information System (OAIS), Blue Book (CCSDS 650.0-B-1) http://pds.jpl.nasa.gov/pds-cn-homepage.html 65 3. QUADRO TEÓRICO DE REFERÊNCIA - VOLINFO.TXT : descrição do conteúdo dos dados - CATALOG : DATASET.CAT. MISION.CAT, INST.CAT - INDEX : índice ASCII cobrindo a granularidade de cada pacote de dados - SOFTWARE : software necessário para interpretar e visualizar os dados - CALIB : conjuntos de calibração de dados - BROWSE : permite percorrer a lista dos recursos em cada pacote de dados. O acesso é possível através de CDs distribuídos a toda a comunidade. Também é possível aceder via Internet a grande parte dos recursos. National Archives and Records Administration´s (NARA)123 Este repositório preserva e dá acesso a recursos digitais no âmbito do governo federal dos EUA. A comunidades de utilizadores é tão ampla quanto os conteúdos o permitem. Antes de serem integrados no repositório são criados metadados que incluem a origem, a criação, as características dos dados e os desenvolvimentos administrativos. O NARA captura ainda para uma base de dados, com o objectivo de uma posterior verificação automática, metadados acerca dos domínios, das ligações e dos layouts. Da mesma maneira, outros metadados criados pelo pessoal do NARA incluem descrições das colecções, resumos, listas de títulos, etc. Life Sciences Data Archive (LSDA)124 A comunidade alvo deste repositório é constituída por investigadores no âmbito das ciências da vida no espaço. O LSDA contém dados referentes a experiências biológicas com animais, plantas e pessoas em ambientes fora da Terra em voo. Os metadados são os que acompanham originalmente os dados. Excepcionalmente serão acrescentados outros no caso de existir obsolência dos suportes e ser necessário tranferilos para outros de nova geração. 123 124 http://www.archives.gov/ http://lsda.jsc.nasa.gov/ 66 3. QUADRO TEÓRICO DE REFERÊNCIA 3.7.2. Sistemas de metadados aplicáveis à preservação digital Analisamos, de seguida, alguns sistemas de âmbito mais genérico e que procuram constituir um standard para a preservação digital, no domínio dos recursos mais ligados ao mundo das bibliotecas e dos arquivos. Dublin Core125 O Dublin Core é o formato de metadados para recursos digitais mais divulgado pois é passível de aplicação alargada a qualquer comunidade temática. Foi projectado tendo como objectivo a recuperação dos recursos em HTML. Contém uma estrutura simples e flexível aplicável a recursos complexos. Tem capacidade para ser representado através de variadas sintaxes e podemos encontrar uma codificação para os elementos do Dublin Core em XML usando RDF (Beckett, Miller & Brickley 2002)126. Estabelecido no âmbito da OCLC/NCSA, é composto por um conjunto de 15 elementos padrão, permitindo a inclusão de elementos adicionais para atender às particularidades de cada comunidade. Foi estabelecido por consenso de um grupo internacional e interdisciplinar de profissionais – bibliotecários, analistas, linguistas, museólogos, entre outros, e é utilizado para descrever uma variedade de recursos existentes na Internet. Pode ser considerado como um meio de comunicação e de busca de informação para a Internet. O DC tem sido adoptado por importantes instituições e também como padrão nacional em agências governamentais americanas. Apresentamos em seguida o conjunto de elementos definidos para aplicação pelo Dublin Core, 2002127: Título - título dado ao recurso Criador - entidade principal responsável pela elaboração do conteúdo do recurso Assunto - assunto referente ao conteúdo do recurso Descrição - descrição do conteúdo do recurso Editor – entidade responsável pela difusão do recurso 125 126 127 http://dublincore.org/ BECKETT, Dave, MILLER, Eric & BRICKLEY, Dan (2002) – Expressing simple Dublin Core in RDF/XML. Dublin Core Metadata initiative. DCMI (2002) – DCMI elements and element refinements : a current list. Dublin Core Metadata initiative. 67 3. QUADRO TEÓRICO DE REFERÊNCIA Outros responsáveis - entidade responsável por contribuições ao conteúdo do registo Data - data da criação ou de actividade de preservação no ciclo de vida do recurso Tipo - natureza ou género do conteúdo do recurso Formato - manifestação física ou digital do recurso Identificador - identificação única não ambígua do recurso Fonte - referência a um outro recurso do qual deriva o presente Língua - língua do conteúdo intelectual do recurso Relação - referência para outro recurso do qual o presente recurso é derivado ou está associado Cobertura - âmbito espacio-temporal do conteúdo do recurso Direitos - Informação sobre os direitos legais do recurso e seu uso Entre as várias organizações que aderiram à implementação de esquemas de metadados baseados no Dublin Core podemos referir os exemplos da Networked Digital Library of Theses and Dissertations128, do Nordic Metadata Project129, da Art, Design, Architecture & Media Information Gateway and Visual Arts Data Service130, do CIMI (Consortium for the Computer Interchange of Museum Information)131 e do CORC (Cooperative Online Resources Cataloguing)132. EAD (Encoding Archiving Description)133 Mais vocacionada para a realidade arquivística encontramos a norma EAD que permite que a norma ISAD(G) seja descrita numa DTD SGML. Esta norma é mantida no Network Deve- 128 http://www.ndltd.org http://www.lib.heilsink.fi/meta/index.html 130 http://adam.ac.uk 131 http://www.cimi.org 132 http://purl.oclc.org/corc 133 http://lcweb.loc.gov/ead/ 129 68 3. QUADRO TEÓRICO DE REFERÊNCIA lopment and MARC Standards Office da Biblioteca do Congresso134 em parceria com a Society of American Archivists135 que é a sua proprietária. O EAD descreve formalmente o modelo estrutural para um auxiliar de busca e ao mesmo tempo fornece documentação de apoio. Esta documentação é composta por um conjunto de etiquetas disponíveis para identificar as componentes lógicas dos auxiliares de busca. Contém um glossário com a definição do significado das etiquetas, e a linguagem SGML define a sintaxe para a utilização dessas mesmas etiquetas. Os benefícios da utilização da linguagem SGML estão relacionados com : A independência de plataformas de armazenamento - os recursos podem ser recuperados através da utilização de qualquer equipamento e em qualquer ambiente de software. A validação - a estrutura de qualquer auxiliar de busca pode ser validada contra o modelo definido na DTD do EAD para garantir que a norma está bem implementada A reutilização do recurso - um documento codificado em EAD pode ser transformado numa grande variedade de formatos consoante as necessidades, é o caso de requisitos de ecrã ou de impressão O processamento – Dado que as etiquetas da DTD EAD identificam conteúdos de informação do recurso, tais como datas, nomes de pessoas, etc, em vez das características de apresentação do recurso, como tipo de letra, tamanho dos tipos, etc, os conteúdos estão em condições de ser apresentados em qualquer formato ou trabalhados de forma a produzir outro tipo de acções tais como p. ex., listas ordenadas. O EAD possui uma variedade de ferramentas e ficheiros de ajuda para as aplicações SGML e XML136. De entre as instituições137 que, mundialmente, adoptaram o EAD como modelo de metadados podemos referir o IANTT (Instituto dos Arquivos Nacionais da Torre do Tombo)138. 134 135 136 137 138 http://www.loc.gov/marc/ndmso.html http://www.archivists.org/ http://jefferson.village.virginia.edu/ead/products.html http://jefferson.village.virginia.edu/ead/sitesann.html http://www.iantt.pt/ 69 3. QUADRO TEÓRICO DE REFERÊNCIA METS (Metadata Encoding and Transmission Standards)139 O esquema de metadados METS é uma norma para codificação de metadados descritivos, administrativos e estruturais de recursos digitais que utiliza a linguagem XML. A norma é mantida pelo Network Development and MARC Standards Office da Biblioteca do Congresso140 e tem sido desenvolvida como uma iniciativa da DLF141 (Digital Library Federation). Esta iniciativa pretende construir um formato XML para codificação de metadados necessários para a gestão de bibliotecas digitais no âmbito de repositórios e também para permitir a permuta de recursos entre repositórios ou entre repositórios e utilizadores. Dependendo da sua utilização, um documento METS pode ser usado como SIP (Submission Information Package), como AIP (Archival Information Package) ou mesmo como DIP (Dissemination Information Package no âmbito do modelo de referência OAIS que estudaremos no ponto 4.1.5. Um documento METS é constituído por cinco secções : 1) Metadados descritivos – Esta secção pode consistir em apontadores para esquemas externos de metadados tais como o formato MARC, através de um OPAC ou ajudas EAD através de um servidor WWW 2) Metadados administrativos – Fornecem informação acerca da fonte dos dados e acerca da proveniência, da história do recursos (migrações, transformações, etc.) 3) Grupos de ficheiros – Lista dos ficheiros que compõem o recurso em todas as versões. 4) Mapa de estruturas – Estrutura hierárquica dos recursos digitais e das ligações entre o conteúdo dos ficheiros e os metadados 5) Comportamento – Secção relativa a comportamento que pode ser usada para associar comportamentos executáveis com o conteúdo de um recurso METS. Esta secção contém também um mecanismo modular de um código executável que implementa e instala comportamentos definidos abstractamente pelo interface. O METS está a ser analisado como esquema de metadados a utilizar na Biblioteca Nacional de Portugal. 139 140 141 http://www.loc.gov/standards/mets/ http://lcweb.loc.gov/marc/ndmso.html http://www.diglib.org/ 70 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Um repositório de recursos digitais confiável é aquele cuja missão consiste em fornecer acesso a longo prazo a recursos digitais de uma designada comunidade no presente e no futuro de forma permanente e garantida. Neste capítulo vamos dedicar-nos a determinar os aspectos que atribuem confiabilidade aos repositórios digitais com vista à sua implementação. Os objectos de estudo serão opções consideradas internacionalmente como paradigmáticas. 4.1. CONFIABILIDADE DE UM REPOSITÓRIO DIGITAL Seja qual for a infraestrutura de base adoptada, para atingir os seus objectivos um repositório digital deve corresponder às seguintes expectativas: Existir no âmbito de um sistema organizacional que assegure a viabilidade a longo prazo do repositório e da informação digital que este pretende preservar Aceitar a responsabilidade da manutenção a longo prazo de recursos digitais no interesse dos depositantes e para benefício dos actuais e futuros utilizadores Demonstrar responsabilidade fiscal e base de sustentação Desenhar o seu sistema de acordo com convenções e normas internacionais para que a gestão, o acesso e a segurança dos recursos digitais aí depositados se mantenham ao longo do tempo. Estabelecer metodologias para avaliação da qualidade dos sistemas que vão ao encontro das expectativas da comunidade do ponto de vista da confiabilidade 71 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Manter políticas, práticas e desempenhos que possam ser auditados e aferidas por entidades independentes A atribuição de responsabilidades no processo de preservação de recursos digitais é bastante complicada pois todos os intervenientes no processo: criadores de conteúdos, desenhadores de sistemas, patrocinadores e futuros utilizadores são intervenientes activos e potenciais. É também difícil conciliar os interesses de alguns intervenientes i.e., os editores comerciais investem na preservação dos recursos digitais enquanto estes têm valor comercial enquanto que as bibliotecas, arquivos ou museus tendem para objectivos de preservação e de acesso a longo prazo. Ambas as filosofias de preservação, como já vimos no ponto referente ao ciclo de vida dos recursos digitais influenciam decisivamente a futura preservação nos repositórios, especialmente no que diz respeito ao acesso à informação. Contudo, se forem impostas práticas de normalização no que diz respeito tanto a formatos, evitando a utilização de formatos proprietários, como à introdução de metadados desde a fase de criação, à atribuição de identificadores persistentes, e também à correcta aplicação de técnicas de reparabilidade dos ficheiros, muitos dos problemas serão ultrapassados com uma maior facilidade. Como veremos no ponto 4.1.4, a implementação do modelo de referência OAIS constitui um enquadramento base importante, que atribui maturidade à definição de um repositório digital confiável através de uma interessante articulação de metadados administrativos, descritivos e estruturais. 4.1.1. As questões legais A determinação da posse dos recursos nem sempre é clara dada a possibilidade da existência de variadas responsabilidades num só recurso assim como a intangibilidade inerente às características dos suportes de informação. Por estas razões assistimos hoje a uma situação em que o acesso a um número crescente de recursos digitais nas colecções de investigação só é permitido através de onerosos licenciamentos de instituições ou de consórcios de instituições. Estes acordos dizem respeito tanto aos conteúdos como aos softwares utilizados. A maior parte dos licenciamentos é ainda muito vaga no que diz respeito à preservação de longo prazo. As bibliotecas têm vindo a procurar o acesso a licenciamentos especiais para poderem gerir a preservação de longo prazo assim como permitir o acesso aos recursos preservados. 72 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL A questão dos direitos de autor no caso da preservação de recursos digitais está ainda muito pouco esclarecida, dado que os criadores de conteúdos na maior parte das vezes não detêm os direitos do software e dos sistemas usados para criar os ficheiros digitais. Deste modo surgem constrangimentos legais no momento de estabelecer o acesso ou configurar mudanças no sistema. Um repositório terá que empreender acordos com direitos especiais, claramente definidos, para a gestão a longo prazo. Na pior das hipóteses a preservação ficará comprometida porque não foram conseguidos acordos claros. 4.1.2. As questões financeiras O esforço financeiro é potencialmente mais elevado do que o habitualmente efectuado com a preservação tradicional. Os custos da preservação digital devem-se especialmente a: Necessidade de gerir a mudança tecnológica a intervalos regulares ad infinitum. Necessidade de normalização tanto na gestão dos recursos propriamente ditos como nos acordos de licenciamento com os criadores e editores Necessidade de recrutamento e constante reciclagem de pessoal competente nas áreas tecnológicas em questão. Considera-se vantajosa a existência de diálogo entre as organizações intervenientes sobre normalização, critérios e mecanismos necessários para certificação dos repositórios de informação digital e outros assuntos de ordem administrativa e financeira que tendam a melhorar a gestão dos repositórios digitais e, desta forma, contribuir para a sua confiabilidade. Partindo deste pressuposto, convém referir que é da responsabilidade dos repositórios digitais, tentar influenciar os criadores dos conteúdos que vão ser depositados para que cumpram as boas práticas propostas pelo repositório desde o início da criação142. Neste sentido, devem ser estabelecidas linhas orientadoras que deverão ser dadas a conhecer aos criadores e aos detentores da informação. Esta iniciativa só é possível de concretizar se a selecção e captura dos recursos no repositório não for executada de forma automática. 142 HENDLEY, Tony (1998) – Comparison of methods and costs of digital preservation. British Library Research and Inovation Report; 106. ISBN 0-7123-9713-2 73 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Da mesma maneira, se legalmente for possível ao repositório receber os recursos através de depósito legal, deve ser previamente efectuada larga campanha informativa/publicitária junto dos criadores de conteúdos para que as linhas orientadoras sejam cumpridas. A partir deste momento o repositório depara-se com custos relativos à gestão dos recursos e que dizem respeito à estrutura dos dados, à documentação, ao seu armazenamento e à sua validação. Existem muitos outros custos associados mas vamos abordar unicamente os seguintes: Quanto à estrutura dos dados: Os custos variam em função do formato de criação do recurso ser proprietário ou aberto. Quanto à documentação: O repositório deve conferir a documentação que acompanha o recurso. Se for caso disso, deverá enriquecer essa documentação que vai permitir a posterior recuperação do recursos em condições favoráveis. A documentação diz respeito à estrutura do recurso, ao seu conteúdo, à sua proveniência e à sua história. Se o repositório não detiver as condições técnicas suficientes para colmatar as deficiências de documentação, deverá rejeitar os recursos. Acompanhando este raciocínio, quando a documentação que acompanha o recurso é pobre, os custos do repositório aumentam dramaticamente. Quanto à validação: O repositório deve cumprir alguns procedimentos que vão também encarecer o depósito dos recursos. Deve verificar, através do seu visionamento, se: o recurso está conforme com a documentação; o recurso corre nos ambientes de hardware e software que foram especificados o recurso tem qualidades de consistência. Quanto ao armazenamento: Os custos variam em função da quantidade de recursos armazenados e da quantidade de recursos disponibilizados, e também da forma de armazenamento e de acesso. Os cenários prováveis vão desde o outsourcing total do armazenamento até um armazenamento misto de off-line, processando-se o acesso aos recursos somente através de protocolos entre os utilizadores e o repositório ou on-line e distribuídos em tempo real na Web. 74 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Podemos dividir os custos da preservação propriamente dita em três categorias: Preservação do fluxo de bites através de cópias e refrescamentos Interpretação do fluxo de bites através da preservação da documentação Assegurar que é possível continuar a descodificar os dados no futuro depois de prosseguir uma das estratégias de preservação já referidas Os custos da gestão dos direitos cobrem todas as fases do processo incluindo a protecção dos dados e a confidencialidade 4.1.3. A gestão do risco Muitos dos riscos que ameaçam os recursos digitais já são conhecidos de qualquer repositório. São eles, as calamidades naturais, pragas de insectos ou micro-organismos que destroem os suportes digitais da mesma maneira que destroem livros e edifícios, sabotagens de qualquer tipo, etc. Por outro lado, os suportes magnéticos ou ópticos contêm, em si mesmos, vulnerabilidades que lhes são próprias e que podem ser objecto de medidas profilácticas (ver ponto 3.3.2 onde nos dedicámos às características dos suportes de armazenamento dos recursos). Cabe a um repositório digital a implementação de um conjunto de boas práticas que permita cobrir o ciclo de vida dos recursos, preservar os dados e preservar os metadados que descrevam o ambiente da criação e evolução dos recursos. Os metadados associados irão facilitar no futuro o acesso ao conhecimento da proveniência, do contexto e do real significado dos dados dos recursos. Mas, é sobretudo gerir o risco das estratégias de preservação tais como migração de dados ou emulação de hardware e software que neste momento congrega os esforços dos projectos de preservação digital em curso. Por exemplo, uma folha de cálculo migrada em ASCII recupera os valores de todas as células mas perde as fórmulas que lhes deram origem. Para que uma emulação seja totalmente conseguida é necessário empacotar: os dados a preservar, o software da aplicação que gerou os dados, o sistema operativo no qual a aplicação corre e uma emulação do ambiente de hardware em software com abundante e pertinente informação acerca dos atributos desse hardware. 75 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Este complexo ambiente tenderá a falhar em muitas ocasiões. Podemos referir o projecto CAMILEON143, mais do que uma vez já citado neste trabalho como defensor e implementador da aplicação da emulação. De facto, seria a estratégia perfeita para garantir que as gerações vindouras pudessem usufruir do acesso às criações de hoje com respeito pela autenticidade. Infelizmente o risco de perda é muito elevado e para o gerir é necessário o envolvimento de muitas variáveis, das quais citámos apenas algumas. Também o risco envolvido no processo da migração de dados pode estar associado aos seguintes factores: à própria gestão de colecções no âmbito do repositório ao formato dos dados ao software de conversão dos dados O software de conversão pode ser mais ou menos provido de ferramentas de reparabilidade que garantam a configuração do fluxo de bytes. Apresentamos a título de exemplo de Lawrence et al., 2000144, um quadro do risco associado a migrações de ficheiros de imagem TIPO DE RISCO EXEMPLOS Reparabilidade (configuração dos bites, incluindo o fluxo de bites, a sua forma e estrutura) Os bites podem ser corrompidos por bugs do software ou mau manuseamento dos suportes, ou por falhas mecânicas dos equipamentos O formato dos dados é acompanhado por nova compressão que altera a configuração dos bites A informação dos cabeçalhos não migra ou migra parcialmente ou incorrectamente A qualidade da imagem é afectada por alterações na configuração dos bites O novo formato dos ficheiros altera a ordem dos bytes Segurança 143 144 A migração afecta as marcas de http://www.si.umich.edu/CAMILEON/ LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format investigation. CLIR 76 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL água, os selos, ou outras técnicas de autenticação e reparabilidade Contexto e integridade Relação entre a interacção com outros ficheiros relacionados ou outros elementos no ambiente digital incluindo dependências de hardware ou software O novo ficheiro tem uma nova configuração devido às dependências de hardware e software As ligações a outros ficheiros são alteradas durante a migração O novo formato do ficheiro reduz as dimensões do novo ficheiro e causa uma condensação do armazenamento potencialmente causador da alteração da estrutura dos directórios Os suportes de armazenamento tornam-se mais densos o que afecta as etiquetas e a estrutura dos ficheiros Referência Habilidade para localizar imagens definitivamente e de forma confiável ao longo do tempo entre outros recursos A alteração das extensões dos ficheiros e o seu efeito nos URLs. A carência de metadados sobre a actividade da migração causa problemas numa futura migração Custos Imprevisíveis, visto que se desconhece quantas vezes será necessário migrar Pessoal Pessoal pouco especializado A Imprevisibilidade no número de vezes que vai ser necessário migrar torna impossível detectar que recursos humanos vão ser necessários Funcionalidades Características novas introduzidas durante a migração podem influenciar a impressão ou outros derivados Pode ser necessário alterar os interfaces. P. ex.: estático vs. resolução múltipla ou incapacidade de resposta da Web ao novo formato Características únicas que não são suportadas por outros formatos de ficheiros podem-se perder durante a migração. É o caso do formato GIF. O valor de artefacto (em contexto de criação) pode-se perder devido a alterações durante a migração 77 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Aspectos legais O copyright pode limitar o uso de novos derivados criados no novo formato 4.1.4. As garantias de acesso continuado aos recursos digitais Um repositório digital confiável carece de um enquadramento de políticas e procedimentos largamente testados e bem documentados. No que diz respeito a repositórios partilhados, isto significa efectivamente articular responsabilidades entre os membros do consórcio. No caso de repositórios de investigação, a estratégia de preservação deve espelhar a estratégia de informação como um todo. Mas, acima de tudo, uma política para a preservação de recursos digitais deve acompanhar a política de preservação de recursos não digitais que exista na instituição. Cada recurso digital não deve ser considerado individualmente na altura do depósito. Deve prevalecer uma atitude baseada nos princípios da gestão de colecções, sendo os procedimentos conduzidos automaticamente. Estes comportamentos vão ter reflexo na actividade de fornecimento de acesso pois disponibilizar a informação preservada a uma designada comunidade é da total responsabilidade do repositório digital. O acesso pode ser facilitado se as suas implicações forem compreendidas pela gestão do repositório em si mesmo. O acesso imediato a cada recurso requer medidas diferentes, tais como p. ex. o estabelecimento de licenciamentos, etc. Devido a este tipo de constrangimentos, são requeridas medidas de gestão variadas no seio do repositório apoiadas na gestão de colecções. Da mesma maneira, se os recursos só são acessíveis num formato particular a um grupo específico de utilizadores durante um período determinado, é necessário encontrar e estabelecer mecanismos adequados que entrem em acção no momento preciso. Os acordos de acesso mudam consoante as mudanças de licenças, leis e por vezes também devido a constrangimentos relacionados com as tecnologias e os próprios recursos. É responsabilidade de um repositório assegurar tanto quanto possível que as decisões acerca das políticas de acesso não limitam acções futuras que comprometam a sua confiabilidade no que diz respeito a: Descoberta de recursos: Os utilizadores dos repositórios necessitam descobrir os recursos. Muitas bibliotecas e arquivos fornecem acesso através dos próprios catálogos. Na prática, muitos dos recursos, chegam ao repo- 78 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL sitório com metadados descritivos associados em MARC ou DC, umas vezes acompanhando o recurso, outras disponibilizando informação existente noutro sistema. Autenticidade: Os recursos digitais têm uma evidência menos acentuada de autoria, proveniência ou mesmo contexto do que os recursos tradicionais existentes nas bibliotecas e arquivos. É necessário proceder a verificações em todos os níveis funcionais do repositório digital. Por este motivo, no acto de submissão a depósito, devem ser accionados mecanismos de autenticação que garantam que o que é admitido está conforme o que foi depositado e manterá essas características. Os recursos armazenados devem ser sujeitos a controlo de integridade que garanta que as fluxos de bytes se mantêm inalteradas assim como as versões migradas devem ser verificadas e os emuladores testados. Finalmente, a informação fornecida ao utilizador – a cópia do fluxo de bytes, os metadados associados e o software necessário, em conjunto requerem verificação. Legalizações: As restrições legais, licenças e legislação, governam o acesso aos recursos e mudam ao longo do tempo. Por este motivo os repositórios digitais requerem uma infraestrutura que lide com vários tipos de acordos para diferentes tipos de utilizadores. Preços: Os repositórios que gerem o acesso com uma estrutura de taxas a aplicar aos utilizadores requerem mecanismos de comércio electrónico. Apoio aos utilizadores: Em grande medida, a maior ou menor dificuldade de acesso é determinada pela base de conhecimento ou competência técnica das comunidades de utilizadores. Relatório de acessos: A manutenção de um histórico de acesso é aconselhável como parte das atribuições administrativas do repositório. O preenchimento dos requisitos para responder às responsabilidades que acabámos de desenvolver requer : Um sistema de descoberta de recursos Mecanismos apropriados para autenticação dos recursos digitais Mecanismos de controlo de acesso, de acordo com licenças e legislação 79 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Mecanismos de gestão de comércio electrónico Programas de apoio a utilizadores Em conjunto com as medidas que acabámos de expor é absolutamente necessário que sejam seguidas boas práticas na fase de criação de recursos digitais. Se os repositórios digitais aconselharem o uso de normas para a criação de recursos digitais reduzirão os custos e conseguirão óptimas economias de escala, ao mesmo tempo que asseguram a criação de recursos digitais ricos e capazes de ser preservados a longo prazo. Um repositório digital confiável é mais do que uma organização responsável por armazenar e gerir ficheiros digitais, é aquele cuja missão visa assegurar o acesso confiável de recursos digitais a uma designada comunidade, agora e no futuro. Assim, é indispensável que assuntos como autenticação, uso de identificadores persistentes e metadados sejam correctamente equacionados para assegurar a viabilidade das colecções digitais. 4.1.5. O Modelo de referência OAIS No sentido da aplicação dos princípios defendidos pelo grupo de trabalho da OCLC, RLG/OCLC atrás referidos145, foi criado o modelo de referência OAIS (Open Archival Information System Reference Model)146, desenvolvido pelo Consultative Committee for Space Data Systems (CCSDS)147 no âmbito da NASA. Este modelo, é uma norma ISO com o nº 14721:2002148 que descreve um enquadramento conceptual para um repositório digital genérico, aberto a todas as comunidades com as garantias de confiabilidade que atrás referimos. Da norma consta também um léxico próprio que viabiliza a comunicação entre as comunidades e os repositórios. Um OAIS opera num ambiente constituído pela interacção de produtores, utilizadores, gestão e o repositório em si mesmo. Toda a informação submetida a um OAIS por um produtor e toda a difusão estabelecida a partir do OAIS a um utilizador ocorre numa ou mais sessões discretas através de pacotes de informação. Um pacote de informação é um envelope conceptual onde estão encapsulados informação de conteúdo (recurso digital e metadados de representação) e metadados de preservação. 145 146 147 148 OCLC/RLG Working Group on preservation metadata (2001) – Op. cit. OCLC/RLG Working Group on preservation metadata (2002) – Preservation metadata and the OAIS Information Model : a metadata framework to support the preservation of digital objects: a report CONSULTATIVE COMMITTEE FOR SPACE DATA SYSTEMS (2002) – Reference Model for an Open archive Information System (OAIS), Blue Book http://ssdoo.gsfc.nasa.gov/nost/isoas/ref_model.html 80 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Gestão dos dados Produtor Ingestão Repositório Acesso Utilizador Administração Gestão Fig. 4. - O OAIS e o seu ambiente149 Em resultado de trabalho desenvolvido na comunidade OAIS para definir as obrigações de um repositório OAIS surgiu o seguinte conjunto de propostas organizativas e estratégicas150: Negociar a informação a fornecer pelos produtores e detentores de direitos Obter controlo suficiente de forma a garantir a preservação a longo prazo. Determinar, por si próprios ou através de parcerias quais os utilizadores de uma dada comunidade que estarão em condições de compreender a informação disponibilizada. Assegurar que a informação a preservar é compreensível por si só na comunidade designada, ou seja, que a comunidade compreenderá a informação sem a necessidade de recorrer à assistência de terceiros. Seguir políticas e procedimentos documentados que assegurem que a informação é preservada contra quaisquer contingências e assegurar a dis- 149 150 OCLC/RLG Working Group on preservation metadata (2001) – Op. cit. RLG-OCLC (2002) - Trusted digital repositories : attributes and responsabilities, Mountain View:Research Libraries Group 81 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL seminação da informação com cópias autênticas a partir do original ou similares ao original. Assegurar que a informação preservada está disponível para a comunidade designada. Trabalhar em conjunto com a comunidade do repositório para conseguir a utilização de boas práticas na criação dos recursos digitais. Verificar a qualidade dos metadados: quaisquer metadados que acompanhem o recurso quando este é submetido ao repositório devem ser verificados e, se necessário, melhorados para suportar a manutenção de longo prazo ao mesmo tempo que o acesso continuado Estabelecer identificadores únicos e persistentes para os recursos. Igualmente importante é a existência de sistema com capacidade para resolução de links por forma a encontrar inequivocamente um determinado recurso. O enquadramento OAIS também inclui um modelo chamado de informação onde são descritos os requisitos de metadados de preservação de longo prazo. Podemos considerar o modelo OAIS um enquadramento de metadados de aplicação genérica a partir do momento em que este se encontra inserido numa estrutura de repositório digital que é independente do recurso digital e da tecnologia usada para o processo de preservação. Neste contexto recurso digital e metadados mantêm-se separados mesmo que embutidos. 82 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Pacote de Depósito Informação Submissão Difusão Conteúdo da Descrição da Empacotamento da Descrição da informação Informação informação informação para Preservação Objecto de informação Base de Conheci- Objecto-dados mento Representação da Informação Objecto digital OU Objecto Físico Fig. 5 - Modelo de informação OAIS151 Num repositório OAIS, a informação pode existir de duas formas como representamos na figura 5 : 1) como artefacto (representação de documento em papel, amostra de terra, etc). 2) ou como objecto digital (formato PDF, formato TIFF, etc.) Ambos os tipos, físico e digital, são definidos no ambiente OAIS como objectos-dados. Os conteúdos dos objectos-dados podem assumir múltiplas formas : as mais óbvias são as dos recursos a preservar, tais como um jornal electrónico num formato TIFF. Um objectodados pode também ter a ele associado, p. ex., um registo de metadados DC i.e., se a estratégia de preservação implementada obrigar ao encapsulamento dos metadados. 151 OCLC/RLG Working Group on Preservation Metadata (2001) – Op. cit. 83 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL É de realçar que os objectos e os seus metadados são, pelo menos do ponto de vista lógico, objectos separados, mesmo que os metadados estejam inseridos no objecto, o que pode ser o caso num documento HTML. A interpretação do objecto pode ser conseguida através da combinação da base de conhecimento dos utilizadores e da representação da informação associando-os ao objecto. Cada indivíduo ou grupo de indivíduos tem a sua base de conhecimento que é usada para compreender e interpretar os dados. P. ex. a comunidade dos cidadãos da língua inglesa deve ter uma base de conhecimento que permita ler em inglês; a comunidade de programadores de Java deve ter uma base de conhecimento na forma de código de Java. A base de conhecimento é externa ao arquivo, e não é mantida, nem desenvolvida como parte de qualquer função do arquivo. A base de conhecimento nem sempre é suficiente para compreender inteiramente o objecto-dados. Neste caso o objecto deve estar representado por uma componente chamada representação da informação, de forma a ser possível a compreensão total dos utilizadores. Num nível muito baixo a representação da informação está contida um fluxo de bits. A representação da informação indica se um fluxo de bits representa um parágrafo de texto, um ficheiro de som, uma imagem, etc. Contudo o conhecimento do formato do ficheiro descrito no fluxo de bits pode não ser suficiente para interpretar o seu conteúdo. P.ex.: um objecto-dados na forma de um ficheiro ASCII: 04 27 56 01 16 44 02 01 17 pode ser uma data mas também pode ser outra informação A informação ASCII não é suficiente para interpretar o conteúdo do objecto sendo necessária informação complementar. Outro exemplo de representação da informação pode envolver um objecto-dados que consiste no seguinte : <?xml:namespace ns = http://www.w3.org/RDF/RDF/prefix =”RDF”?> <?xml:namespace ns = http://purl.oclc.org/DC/”prefix = “DC”?> <RDF:RDF> <RDF:Description RDF:HREF = http://uri-of-Document-1> <DC:Creator>John Smith<DC/CD:Creator> </RDF:Description> <RDF:RDF> 84 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Neste exemplo a representação da informação está identificada como metadados que descrevem um documento criado por John Smith e que inclui esquemas para XML , RDF e DC para que os elementos de metadados e a sua sintaxe seja interpretada de forma correcta. A representação da informação pode assumir duas formas: 1) informação estrutural 2) informação semântica. A informação estrutural interpreta os bits organizando-nos por tipos de dados, grupos de tipos de dados e outros significados de alto nível. Esta deve incluir especificação do formato dos dados e uma possível descrição do ambiente de hardware/software em que os dados foram criados e que se torna necessária para o acesso posterior. A informação semântica, por outro lado, acrescenta significado à estrutura dos dados, identificada através da informação estrutural. P. ex. a informação estrutural pode identificar um fluxo de caracteres de texto ASCII enquanto a informação semântica pode indicar que esse texto se encontra escrito em língua inglesa. No ambiente do modelo OAIS a representação da informação encontra-se ela própria em formato digital e por esse motivo deve acrescentar-se informação adicional para interpretar o fluxo de bits da representação da informação, é por este motivo, necessária a existência de uma terceira camada de representação da informação, etc. O modelo de referência OAIS recomenda que o resultado da rede de representação termine com a elaboração de um documento físico que dê por finda a construção da rede e dê início ao processo de interpretação. Um objecto de informação é definido como um objecto-dados combinado com a representação da informação. Num ambiente digital isto implica uma sequência de bits, combinada com todos os dados necessários a torná-la compreensível. Existem quatro classes de objectos informacionais que, em conjunto, formam um pacote de informação: Informação acerca do conteúdo Informação descritiva para preservação Informação para empacotamento Informação descritiva Os pacotes de informação podem ser de três tipos (vide Fig. 5): 85 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL SIP (Submission information package) - Pacote de informação para submissão é enviado do produtor da informação para o depósito. AIP (Archive information package) - Pacote de informação para depósito preparado para ser armazenado pelo depósito. DIP (Dissemination information package) - Pacote de informação para disseminação - enviado ao utilizador em resposta e uma pesquisa já em contexto de acesso. Num contexto de preservação de metadados, a informação relevante encontra-se no pacote AIP, dado que este é o pacote para preservação de longo prazo. Um AIP é uma agregação de quatro tipos de objectos informacionais: 1) CI (Content information) - Informação acerca do conteúdo que consiste na informação que o arquivo tem a obrigação de preservar em conjunto com a informação de representação. 2) PDI (Preservation description information) - Informação descritiva para a preservação a qual contém informação necessária para gerir a preservação da informação sobre o conteúdo, com que está associada. Esta informação divide-se em quatro tipos : Informação acerca da referência – enumera e descreve os identificadores destinados à informação sobre o conteúdo de tal maneira que se tornem inequívocos, interna e externamente ao depósito (p. ex : ISBN, URN) Informação acerca da proveniência - documenta a história da informação sobre o conteúdo (p. ex. origem, histórico de custódia, acções e efeitos da preservação) Informação acerca do contexto - documenta as relações entre a informação sobre o conteúdo e o seu ambiente (p. ex. razões pelas quais foi criado, relações com outras informações de conteúdo, etc.) Informação acerca da reparabilidade : documenta mecanismos de reparabilidade e autenticação usados para assegurar que o conteúdo da informação não foi alterado de forma não documentada (p. ex. checksums ou assinaturas digitais) 86 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL 3) PI (package information) - Informação para empacotamento que envolve o objecto digital e os metadados associados numa unidade ou pacote. 4) (DI) Descriptive information - Informação descritiva que facilita o acesso à informação sobre o conteúdo através das ferramentas de pesquisa e recuperação. A informação descritiva serve de input das ajudas à localização de depósitos e deriva tipicamente da informação sobre o conteúdo ou da informação descritiva para preservação. O modelo OAIS representa uma descrição de alto nível dos tipos de informação gerados e geridos num contexto global de sistema de depósito digital. Não transmite pressupostos acerca do tipo de recursos digitais manuseados no depósito nem acerca das especificações tecnológicas empregadas pelo depósito para atingir os seus objectivos de preservação e acesso de longo prazo. Deste modo o modelo fornece uma estrutura útil de desenvolvimento de metadados para a preservação que vai ao encontro dos requisitos necessários a uma actividade de preservação digital alargada. O modelo de referência OAIS é, neste momento, a base de trabalho das instituições de maior renome internacional na área da preservação digital, através dos projectos NEDLIB, CEDARS, PANDORA e OCLC/RLG. Estes projectos vão ser objecto de referência detalhada no ponto seguinte. Apresentamos em seguida um modelo de um pacote de Informação OAIS152 MODELO - Pacote de Informação para Arquivo Informação sobre o conteúdo Objecto-dados Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica Informação descritiva para a preservação Informação sobre a referência • Objecto-dados • Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica Informação sobre o contexto • Objecto-dados • Informação sobre a representação 152 OCLC/RLG (2001) – Op. cit. 87 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL • Informação sobre a estrutura • Informação sobre a semântica Informação sobre a proveniência da Informação • Objecto-dados • Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica Informação de autenticação • Objecto-dados • Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica Informação sobre os pacotes de informação Objecto-dados Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica Informação descritiva Objecto-dados Informação sobre a representação • Informação sobre a estrutura • Informação sobre a semântica 4.2. AS GRANDES OPÇÕES DE PRESERVAÇÃO Devido à importância e urgência cada vez maiores atribuídas à preservação de conteúdos da Internet a longo prazo, estão em curso inúmeros projectos que se debruçam sobre este assunto. Neste sub-capítulo vamos estudar aqueles que consideramos tecnologicamente mais avançados e de maior relevância a nível internacional. 4.2.1. Internet Archive153 O Internet Archive é o projecto mais vultuoso e ambicioso na área da preservação digital de longo prazo. É uma iniciativa americana que consiste em coleccionar e arquivar páginas Web, na perspectiva de guardar todos os conteúdos relevantes e está sediado no Presídio de São Francisco. Teve início em 1996 com o objectivo de construir uma biblioteca digital que pudesse oferecer acesso a conteúdos históricos para um público de investigadores, historiadores e académicos. Em Março de 2001, a colecção do Internet Archive de páginas 153 http://www.archive.org/ 88 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Web estava compreendida em mais de 43 terabytes (Rauber & Ascenbrenner, 2001)154, em Janeiro de 2002 já era de mais de 100 (Koman, 2002)155. Os recursos digitais são encaminhados para o Internet Archive através de terceiros. O maior contribuinte é o motor de busca Alexa Internet. O robot do Alexa Internet captura mais de 100 gigabytes por dia em toda a Internet. Não existe nenhum tipo de selecção de recursos e não existe violação de direitos uma vez que todos os recursos capturados estão no domínio público. Para garantir a preservação de longo prazo são tomados três tipos de acções : 1) manutenção de cópias em diversos locais geográficos 2) migração dos dados para novos suportes regularmente e 3) constituição de uma colecção de emuladores para usar no futuro Em entrevista dada por Brewster Kale à RLG Diginews (2002)156, este refere que os intervalos de tempo das viagens dos crawlers a todo o espaço da Internet é de dois em dois meses, mas também existe a busca semanal ou mesmo diária de colecções consideradas importantes. As orientações seguidas pelo Internet Archive em matéria de aplicação de modelo para a gestão da preservação são as do RLG/OCLC157, logo, vamos encontrar o modelo de referência OAIS, ao qual já referimos detalhadamente no ponto 4.1.5. 4.2.2. NEDLIB - Networked European Deposit Library158 O projecto NEDLIB, em curso de 1998 a 2000 foi apoiado pela União Europeia no âmbito de proposta submetida pelo grupo de bibliotecas nacionais europeias designado por COBRA (Computorized Bibliographic Record Actions)159. No projecto estiveram envolvidas oito bibliotecas nacionais, um arquivo nacional, duas empresas na área das tecnologias de informação e três grandes editoras. A Comissão Europeia patrocinou o projecto através do programa “Telematics for Library Programme of the European Comission” e a coordenação pertenceu à Biblioteca Nacional da Holanda. 154 155 156 157 158 RAUBER, Andreas & ASCHENBRENNER, Andreas (2001) - Part of our culture is born digital : on efforts to preserve it for future generations. Trans-Internet-Zeitschrift für Kulturwissenschaften. 10 Koman, Richard (2002) – How the wayback machine works. The O´Reilly Network. KALE, Brewster (2002) – Op. cit. OCLC/RLG Working Group on Preservation Metadata (2002) – Preservation metadata and the OAIS information model : a metadata framework to support the preservation of digital objects. OCLC http://www.kb.nl/nedlib 89 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL O principal objectivo deste projecto foi a construção de uma infraestrutura básica de apoio a uma rede europeia de depósito de recursos digitais para preservação de longo prazo (Deposit System Electronic Publications - DSEP). O projecto NEDLIB baseia-se no modelo de referência OAIS e o propósito consistiu na identificação de requisitos funcionais, comuns a todas as bibliotecas de depósito por forma a chegar a um consenso quanto à construção de um DSEP que servisse de base para implementações locais. Outros dois objectivos nortearam o projecto, um foi a extensão do depósito à preservação de longo prazo e o outro resultou na construção de um sistema de demonstração que cobre todas as funcionalidades do DSEP (Werf-Davelaar, 1999)160. Um DSEP interage como os sistemas das bibliotecas através de dois interfaces (Fig. 6): 1) Interface de envio e captura Este interface tem como funcionalidade ajudar na fase de pré-ingestão, orientando os depositantes no sentido de serem cumpridas boas práticas sem as quais os recursos não têm autorização de entrar no depósito. 2) Interface de empacotamento e envio Neste caso o DSEP pode requerer e aceitar um DIP (Pacote de disseminação da informação) a partir do módulo de acesso. O DIP consiste na publicação requisitada num dos formatos disponíveis, com software acompanhante e respectivos metadados necessários para instalação e acesso, no sentido da reconstrução do documento original com toda a autenticidade. O DSEP consiste de seis módulos, cinco são módulos OAIS, acrescidos de um outro para preservação pois as estratégias de preservação não são contempladas no modelo de referência OAIS, como já foi referido. Os módulos são : Ingestão, Armazenamento, Gestão de dados, Acesso, Administração e Preservação. Apresenta-se de seguida o Modelo Processual. 159 160 http://www.kb.nl/gabriel/cobra WERF-DAVELAAR, Titia van der (1999) – Long-term preservation of electronic publications : the NEDLIB project. D-Lib Magazine, 5 (9) 90 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Fig. 6 – Modelo DSEP (adaptado de WERF-DAVELAAR, Titia van der (1999) op. cit.) 91 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL 4.2.3. CEDARS (CURL Exemplars in Digital Archives)161 O projecto CEDARS desenvolve-se no Reino Unido, patrocinado pelo JISC (Joint Information System Committee)162 através do programa “eLib – The electronic libraries programme”163 sob proposta do consórcio de bibliotecas universitárias CURL (Consortium of University Research Libraries)164, que entendeu inscrever a preservação digital como uma das suas missões. O projecto teve início em 1998 com a duração de 3 anos. O projecto CEDARS manifesta como seus objectivos: Promover a consciencialização da importância da preservação digital no ambiente das bibliotecas de investigação e académicas e também junto dos seus utilizadores. Identificar, documentar e divulgar plataformas estratégicas de gestão de colecções no sentido da preservação de longo prazo dos recursos digitais nelas incluídos. Investigar, documentar e promover métodos apropriados à preservação de longo prazo para diferentes tipos de recursos digitais existentes nas colecções das bibliotecas e ao mesmo tempo desenvolver modelos devidamente escalonáveis. O projecto CEDARS coloca fora do seu âmbito os recursos digitais que tenham a forma de som ou vídeo e elege como tipos de recursos a preservar : Recursos digitais fruto de digitalização Conjuntos de dados Publicações electrónicas Bases de dados em linha Recursos efémeros – pré-impressões, páginas Web, etc. Recursos digitais onde o conteúdo intelectual se limita a estrutura, forma e comportamento 161 162 163 164 http://www.leeds.ac.uk/cedars/ http://www.jisc.ac.uk/ http://www.ukoln.ac.uk/services/elib/ http://www.curl.ac.uk/ 92 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Metadados Um dos produtos resultantes do projecto diz respeito à aplicação do modelo de referência de metadados OAIS à realidade CEDARS. Apresentamos em seguida a estrutura dos requisitos de metadados para um pacote de informação165. Pacote de informação Informação descritiva para preservação Informação sobre a referência Descrição do recurso Metadados existentes Registos existentes Informação sobre o contexto Informação sobre outros objectos informacionais Informação sobre a proveniência História da origem Informação sobre a gestão Gestão de direitos Informação sobre a autenticidade Indicadores de autenticação Informação sobre o conteúdo Informação sobre a representação Objecto-dados O conjunto de metadados está obrigado a apoiar de forma significativa o acesso aos conteúdos do depósito e inclui metadados descritivos, administrativos, técnicos e legais. Os metadados são aplicados a um leque alargado de objectos digitais na expectativa de que uma biblioteca digital contenha colecções de variados formatos. Da mesma forma as especificações devem ser independentes do nível de granularidade aos quais os metadados estão associados. 165 CEDARS Guide to Preservation Metadata (2002) 93 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Incluímos em seguida a Figura 7, relativa à função de gestão dos dados num ambiente OAIS, neste caso implementado pelo CEDARS e baseados em Russell & Sergeant, 1999166 Fig. 7. – Ambiente de um depósito CEDARS baseado no OAIS167 4.2.4. PANDORA (Preserving and Accessing Networked Documentary Resources of Australia)168 O Projecto PANDORA desenvolveu-se como iniciativa da Biblioteca Nacional da Austrália169 com a missão de preservar e fornecer acesso a recursos digitais da Internet a longo prazo. O projecto PANDORA iniciou-se em 1996 tendo como objectivos170 : Identificar os requisitos funcionais para a gestão de um sistema de preservação Identificar, testar e avaliar técnicas, normas e produtos envolvidos no processo de preservação incluindo a captura, a catalogação e o depósito Estimar quais os recursos financeiros, de equipamento e pessoal necessários 166 167 168 169 RUSSELL, Kelly & SERGEANT, D. M. (1999) – The Cedars Project : implementing a model for distributed digital archives. RLG DigiNews, 3 (3) RUSSELL, Kelly & SERGEANT, D. M. (1999) – Op. cit. http://pandora.nla.gov.au/index.html/ http://www.nla.gov.au/ 94 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Desenvolver recomendações e estratégias para a preservação de longo prazo e acesso, incluindo considerações acerca de refrescamentos, migrações, etc. Desenvolver uma proposta de âmbito nacional para a preservação digital de longo prazo A proposta da Biblioteca Nacional da Austrália através do projecto PANDORA não explicita em detalhe uma estrutura de contexto para o conjunto de metadados, no entanto, sugerenos que o conjunto de metadados foi inspirado pelo modelo OAIS. A prioridade da Biblioteca Nacional da Austrália é tornar pesquisáveis os recursos que foram seleccionados para integrar o repositório PANDORA. Deverá ser possível aos utilizadores satisfazer uma pesquisa através do título e explorar o sítio e as ligações disponíveis. O acesso é unicamente possível através de metadados dos títulos. No momento em que um recurso é depositado, são acrescentados metadados sobre o mesmo. O recurso sofre algumas alterações dado que é alvo duma operação de “limpeza”, i.e., são desactivadas funções de caracter administrativo, removem-se conteúdos duplicados, apagam-se partes estranhas e desactivam-se os links. É absolutamente necessário registar todas as alterações, com vista a assegurar que a história da mudança e da proveniência possa ser totalmente traçada. O acesso do utilizador final aos recursos do repositório PANDORA pode ser conseguido, sempre que possível, sem restrições e de forma gratuita. Poderá haver lugar a algumas restrições de acesso caso surjam interesses comerciais ou outros que inviabilizem a consulta durante um certo período de tempo. 4.2.5. OCLC/RLG Working Group on Preservation Metadata171 O OCLC/RLG (Online Computer Library Center/ Research Libraries Group), consórcio de mais de 160 instituições americanas, constituiu-se em Março de 2000 com o objectivo de colaborar na identificação das melhores práticas para a preservação de recursos digitais a longo prazo e desenvolver uma estrutura de metadados de aplicação alargada. É pioneiro no desenvolvimento de soluções cooperativas para os problemas da gestão de colecções, tais como aquisição, fornecimento e preservação de informação Este grupo de trabalho recomenda um conjunto de 16 elementos que considerava essenciais para a preservação de ficheiros originais ao longo do tempo172. Estes elementos enqua- 171 172 http://www.oclc.org/research/pmwg/ OCLC/RLG Working Group on Preservation Metadata (2001) – Op. cit. 95 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL dram-se nas três categorias de metadados já mencionadas : descritivos, administrativos e estruturais. Apesar das três categorias estarem cobertas, o foco principal encontra-se nos metadados administrativos. Por exemplo, as estratégias de preservação tais como a migração, alteram por vezes a integridade dos bits do objecto arquivado. Estas alterações devem estar documentadas na “História da mudança”. O facto da integridade dos bits de um objecto digital ser maleável neste sentido, sugere a necessidade da validação de que esse objecto não foi corrompido, ou propositadamente ou intencionalmente alterado durante o ciclo da preservação. Um algoritmo para validação automática ou uma assinatura digital registada no elemento “Chave de validação” satisfaria esta necessidade. Para confirmar a autenticidade do objecto poderiam ser comparadas as alterações da chave de validação com mudanças do documento, através da integridade dos bits do objecto registados no elemento “História da mudança”. Ambos os elementos “História da mudança” e “Chave de validação” cabem na categoria de metadados administrativos. Neste exemplo, os metadados de preservação servem a função administrativa, uma vez que falamos de gestão de depósito do objecto. Os metadados de preservação também podem servir a função estrutural ao detalhar as relações entre diferentes objectos que residem num repositório digital. Por exemplo, vários objectos depositados podem colectivamente representar um único objecto complexo. Os metadados servem para colocar os objectos em sintonia. Alternativamente os metadados podem estabelecer ligações entre diferentes versões de um objecto depositado, diferente apenas no formato do ficheiro. Como um objecto se movimenta em diferentes fases de migração, novas versões do objecto são produzidas. Os metadados estabelecem a união numa única cadeia lógica. No que diz respeito aos metadados descritivos, estes estão preferencialmente destinados à fase do acesso de modo a permitirem a descoberta do recurso como resposta a uma consulta. Um enquadramento desta natureza, levado a cabo pelo OCLC/RLG deve representar, a um nível bastante alargado, as necessidades dos tipos de metadados que atribuem consistência a uma actividade de preservação digital. Da mesma maneira que os projectos anteriores também o OCLC/RLG pretende aplicar o modelo de referência OAIS com objectivos reguladores na comunidade que representa e que são : a) Fornecer às instituições que pretendam iniciar actividades de preservação digital um padrão para os requisitos de metadados que assegure que os recursos digitais são preservados a longo prazo. 96 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL b) Facilitar o consenso numa estrutura de metadados que contribui para a interoperabilidade entre os repositórios de recursos digitais, facilita a correspondência entre metadados e abre caminho à partilha de recursos. c) Propor uma estrutura comum que facilitaria a inclusão de informação de produtores e de outras entidades externas ao repositório, no início do processo de criação dos metadados. 4.2.6. FEDORA (Flexible Extensible Digital Object and Repository Architecture)173 O projecto FEDORA tem sede na biblioteca da Universidade da Virgínia nos Estados Unidos da América e é desenvolvido no âmbito de uma parceria com a Universidade de Cornell. É subsidiado pela Andrew W. Mellon Foundation. O projecto FEDORA não se desenvolveu com base no modelo de referência OAIS e pretende ter ao mesmo tempo uma aplicação genérica e específica. A linguagem utilizada é a WSDL (Web Services Description Language). Esta é uma linguagem XML, desenvolvida no âmbito do W3C que descreve serviços Web baseados em modelos abstractos174,175. As funcionalidades do sistema baseiam-se em duas entidades, uma que diz respeito à arquitectura dos objectos digitais, que comportam dados, metadados e ambiente e a outra ao repositório propriamente dito. O ambiente é representado através de ligações distribuídas por serviços Web através da linguagem WSDL e implementados via HTTP GET/POST ou SOAP (Simple Object Access Protocol). Os objectos digitais são codificados e armazenados em XML, utilizando o formato METS. O repositório gere a longo prazo os recursos digitais, os metadados, as aplicações informáticas e os serviços e ferramentas que os apoiam. Pretende ser um fornecedor OAI (Open Access Initiative). A arquitectura dos objectos digitais é composta por vários componentes : - 173 174 175 1 identificador persistente http://www.fedora.info W3C Publishes Working Drafts for Web Services Description Language (WSDL) 1.2. (2002) Cover pages, Julho Web Services Description Language (WSDL) Version 1.2 (2002): Bindings. W3C Working Group Draft Julho 97 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL - Disseminadores que permitem o acesso ao conteúdo do objecto - Metadados necessários à gestão do objecto ao longo do tempo - Fluxos de dados que compõem a base do conteúdo do objecto A linguagem XML que codifica os objectos digitais é usada através duma extensão do formato METS (vide 3.7.2). Este formato foi adoptado pois tem potencialidades que aos olhos do projecto FEDORA se adequam aos seus objectivos e que são : - A utilização da linguagem XML - Ser um formato aberto - Seguir a norma mantida pelo Network Development and MARC Standards Office da Biblioteca do Congresso176 desenvolvida como uma iniciativa da DLF177 (Digital Library Federation) - Deter todas as funcionalidades necessárias ao projecto 4.3. A MOTIVAÇÃO PARA A UTILIZAÇÂO DO MODELO DE REFERÊNCIA OAIS 4.3.1. Os interesses das potenciais comunidades utilizadoras No ponto anterior indicámos as principais opções de preservação digital a nível mundial enquadrando-as nas diferentes missões e objectivos das instituições que chamaram a si essa responsabilidade. A implementação do modelo de referência OAIS parece ser uma constante, embora na comunidade NEDLIB não tenha sido explicitamente referenciada a sua implementação, se nos reportarmos ao relatório de Lupovici & Masanés, 2000178. Da aplicação do modelo OAIS resultam conjuntos de boas práticas que são indispensáveis para a preservação a longo prazo. Neste ponto vamos abordar a construção do pacote AIP (Archive Information Package) – Pacote de informação para depósito seguindo as boas práticas referidas pelas comunidades em estudo. 176 177 178 http://lcweb.loc.gov/marc/ndmso.html http://www.diglib.org/ LUPOVICI, Catherine, MASANÈS, Julien (2000) – Metadata for the long term preservation of electronic publications. Nedlib Report Series; 2 98 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Este pacote é composto por quatro agrupamentos de metadados, como foi referido anteriormente no ponto 4.1.5. Vamos dedicar-nos especialmente à PDI (Preservation Description Information) - Informação Descritiva para Preservação, e à CI (Content Information) – Informação sobre o conteúdo, ou seja, o objecto-dados e a informação acerca do seu conteúdo. O pacote PDI é, por sua vez, composto por 4 grupos : Informação sobre a referência, Informação sobre a proveniência, Informação sobre o contexto e Informação sobre a autenticação e mecanismos de reparabilidade. Dedicar-nos-emos também à DI (Descriptive information), informação descritiva que permite facilitar o acesso das ferramentas de busca automática. Mais à frente vamos articular este conjunto de metadados com o OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), protocolo de recuperação automática dos metadados. Os metadados descritivos podem ser repescados tanto em CI como em PDI. Não é demais referir que o povoamento que apresentamos, acompanha as necessidades das comunidades implementadoras, neste caso as comunidades já apresentadas no ponto 4.2 : CEDARS, NLA, NEDLIB e OCLC. A OCLC, por sua vez, sugere a viabilidade da construção de uma matriz de metadados de certa maneira consensual, com o objectivo de permitir uma mais ampla interoperabilidade entre repositórios através da comparação de metadados propostos pelo WG e pelas três já existentes usando como benchmark a comunidade CEDARS (OCLC/RLG, 2001, 2002)179,180, por considerar que é a que mais bem se adapta ao modelo de referência OAIS. Também a comunidade da Universidade de Harvard é referida no relatório da OCLC/RLG de 2001, mas dado que não implementa o modelo OAIS, não é nossa intenção incluí-la neste trabalho. Vejamos, no que diz respeito à Informação sobre a Proveniência para um Pacote de informação para depósito quais as abordagens das três comunidades referidas. Para cada uma juntamos o respectivo povoamento: a) A Comunidade CEDARS O conjunto de metadados da comunidade CEDARS, como o de todas as outras, tem o objectivo de permitir a preservação digital de longo prazo. Exige-se destes metadados que permitam o acesso com recuperação pertinente e, tanto quanto possível, fiel aos recursos digitais e aos seus conteúdos depositados no repositório digital a longo prazo. Ao mesmo tempo pretende-se que acrescentem valor às condições de preservação. 179 180 OCLC/RLG (2001) – Op. cit. OCLC/RLG (2002) – Op. cit. 99 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL O conjunto inclui metadados descritivos, administrativos, estruturais ou técnicos e também informação legal. Pretende-se aplicar estes metadados a uma classe alargada de objectos digitais, na expectativa de que uma qualquer colecção contenha vários formatos. Da mesma maneira, pretende-se que a especificação seja independente do nível de granularidade. A comunidade CEDARS divide o pacote de Informação sobre a proveniência em três subcategorias: (1) História da origem, (2) História da gestão e (3) Gestão de direitos. A História da origem descreve o objecto digital numa fase anterior à ingestão no repositório. Os metadados relevantes incluem a razão da criação, a cadeia de custódia antes da ingestão, quaisquer modificações que tivessem tido lugar antes do depósito e o ambiente técnico utilizado no momento em que o repositório assumiu a responsabilidade da preservação. Isto inclui a especificação do ambiente de hardware e software do objecto como pré-requisitos, procedimentos para a instalação e operação nesse ambiente e qualquer documentação adicional de interesse para compreensão do ambiente técnico. Finalmente o último elemento nesta categoria regista a razão da preservação. Este grupo de metadados é construído na fase de pré-ingestão no repositório e é fundamental para uma boa gestão da preservação e do acesso no futuro. Independentemente da granularidade o conjunto deve ser obrigatoriamente preenchido. Podemos incluí-los nas categorias de metadados administrativos e estruturais ou técnicos. A História da gestão documenta qualquer modificação efectuada ao objecto digital durante a sua permanência no repositório, contudo também inclui qualquer modificação feita ao objecto ao prepará-lo para o depósito na fase anterior, de pré-ingestão e modificações subsequentes durante o armazenamento. A história administrativa, já em ambiente de depósito propriamente dito inclui as estratégias de preservação enquanto decisões administrativas e enquanto acções de preservação. A Gestão dos direitos encontra-se, na comunidade CEDARS, no âmbito da informação sobre a proveniência, também numa fase de pré-ingestão. Particularmente este grupo de metadados relata os pormenores de todas as negociações que ocorreram antes da ingestão e os direitos de propriedade intelectual associados. Os últimos incluem declarações de copyright (nome do editor, data de publicação, avisos de direitos e contactos dos detentores dos direitos). No que diz respeito à informação sobre a representação, cuja função é comunicar sentido ao fluxo de bits que compõem um objecto digital o projecto CEDARS considera fundamental descrever a estrutura interna do objecto, o que acontece através de metadados relativos às ferramentas que transformam e representam os objectos. Estes estão divididos em cinco sub-elementos: plataforma, parâmetros necessários para operar o software de repre- 100 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL sentação, ferramentas de representação e análise e formatos de output e de input produzidos pelas ferramentas de representação. Incluímos em seguida o povoamento exemplificativo (OCLC/RLG, 2001 op. cit.)181 181 OCLC/RLG (2001) – Op. cit. 101 CEDARS ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META História da origem do recurso Ambiente técnico original Pre-requisitos - PDI A História da origem do recurso Ambiente técnico original Procedimentos - PDI A História da origem do recurso Ambiente técnico original Documentação - PDI A História da origem do recurso Condução do processo - - PDI A História da origem do recurso História da custódia - - PDI A História da origem do recurso História da mudança antes do depósito - - PDI A História da origem do recurso Notas sobre a origem - - PDI A História da origem do recurso Razão para preservação - - PDI A História do Processo - pré-ingestão Datas limite - - PDI A História do Processo - pré-ingestão Forma de condução do processo - - PDI A História do Processo - pré-ingestão Linhas orientadoras usadas - - PDI A História do Processo - pré-ingestão Mudanças nos recursos - - PDI A CEDARS ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META História do Processo - pré-ingestão Outros - - PDI A História do Processo - pré-ingestão Razão da forma de apresentação - - PDI A História do Processo - pré-ingestão Resultados - - PDI A História do Processo - pré-ingestão Título do processo - - PDI A História da gestão História administrativa no depósito História dos movimentos - PDI A História da gestão História administrativa no depósito História das estratégias - PDI A História da gestão História do processo de ingestão - - PDI A Gestão de direitos História da negociação - - PDI A Gestão de direitos Informação sobre os direitos Intervenientes - PDI A Gestão de direitos Informação sobre os direitos Declaração de copyright Aviso de direitos PDI A Gestão de direitos Informação sobre os direitos Declaração de copyright Contactos do detentor de direitos PDI A Gestão de direitos Informação sobre os direitos Declaração de copyright Data de publicação PDI A CEDARS ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Gestão de direitos Informação sobre os direitos Declaração de copyright Editor PDI A Gestão de direitos Informação sobre os direitos Declaração de copyright Local de publicação PDI A Gestão de direitos Informação sobre os direitos Acções a tomar Permitidas por lei PDI A Gestão de direitos Informação sobre os direitos Acções a tomar Permitidas por licenças PDI A Indicador de autenticação - - - FI A Resumo da descrição formal - - - CI A,D Objectos transformadores Ferramentas de análise e representação - - CI E Objectos transformadores Formato de input - - CI E Objectos transformadores Formato de output - - CI E Objectos transformadores Parâmetros - - CI E Objectos transformadores Plataforma - - CI E Objectos de representação, análise e conversão Ferramentas de análise e representação - - CI E CEDARS ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Objectos de representação, análise e conversão Formato de input - - CI E Objectos de representação, análise e conversão Formato de output - - CI E Objectos de representação, análise e conversão Parâmetros - - CI E Objectos de representação, análise e conversão Plataforma - - CI E Render/analyze objects Ferramentas de análise e representação - - CI E Render/analyze objects Formato de input - - CI E Render/analyze objects Formato de output - - CI E Render/analyze objects Parâmetros - - CI E Render/analyze objects Plataforma - - CI E Identificador persistente - - - PDI A,D Data de criação - - - PDI A,D Relações externas - - - PDI A 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL b) A comunidade NEDLIB Esta comunidade aborda a informação sobre a proveniência através de metadados sobre a história da mudança do objecto. São especificados dois tipos de metadados: metadados do objecto propriamente dito, que documentam acções de preservação do mesmo e outros metadados relacionados, registando estes os valores relativos a operações de reparabilidade ou autenticação. A granularidade dos últimos reporta-se unicamente a valor anterior e valor actual. A informação sobre a representação não se subdivide em estrutural e semântica, tal como é recomendado pelo modelo de referência e está documentada através de cinco elementos base: Requisitos específicos de hardware, requisitos específicos de multimedia, requisitos específicos de periféricos (ex. a utilização de um dispositivo ZIP), requisitos específicos do sistema operativo, interpretador e compilador, metadados acerca do formato do objecto e aplicações necessárias para aceder ao conteúdo do objecto, e ainda do nome e versão dos componentes do sistema. Verificámos que os metadados para a preservação de longo prazo estão incluídos tanto no pacote de informação para depósito, como no pacote que se destina à descrição para o acesso, como ajuda na recuperação. Este facto deve-se a que num DSEP (Deposit System for Electronic Documents) os metadados existem em grande quantidade e são manipulados automaticamente. Assim, encontramos incluídas na Informação sobre a representação indicações já referidas no pacote de informação para depósito, que contêm tanto a descrição do formato do software como os códigos fonte. P. ex. em vez de indicar “HTML 4” os metadados devem também conter um apontador para as especificações do “HTML 4”, assim como o código fonte que indica o caminho do W3C que contém a DTD (Document type definition) da referida versão182. Tal como no caso anterior ilustramos o processo com exemplos de povoamento retirados de OCLC/RLG, 2001 (op. cit.)183 182 183 Lupovici, Catherine & Masanès, Junlien (2000) – Op. cit. OCLC/RLG (2001) – Op. cit. 106 NEDLIB ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META História da mudança Metadados associados Valor antigo - PDI A História da mudança Metadados associados Valor novo - PDI A História da mudança Metadados associados Inversão - PDI A História da mudança Metadados associados Data - PDI A História da mudança Metadados associados Ferramenta Nome PDI A História da mudança Metadados associados Ferramenta Versão PDI A História da mudança outros metadados associados Valor novo - PDI A História da mudança outros metadados associados Valor antigo - PDI A Checksum Algoritmo - - PDI A Checksum Valor - - PDI A Assinatura digital - - - PDI A Requisitos específicos de hardware Requisitos específicos de periféricos - - CI E NEDLIB ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Requisitos específicos de hardware Requisitos específicos de processador - - CI E Requisitos específicos de hardware Requisitos específicos multimédia - - CI E Sistema operativo Nome - - CI E Sistema operativo Versão - - CI E Interpretador e compilador Instruções - - CI E Interpretador e compilador Nome - - CI E Interpretador e compilador Versão - - CI E Formato do objecto Nome - - CI E Formato do objecto versão - - CI E Aplicação Nome - - CI E Aplicação Versão - - CI E Tipo de estrutura - - - CI A 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL c) A comunidade da Biblioteca Nacional da Austrália A Biblioteca Nacional da Austrália através do projecto PANDORA faz incidir uma parte da informação sobre a proveniência nas acções de autorização de criação de cópias de preservação e documenta a decisão de depositar ou não um determinado objecto. Ao mesmo tempo introduz um elemento sobre as razões da decisão. Regista também todas as perdas de funcionalidade ou modificações no look-and-feel da versão inicialmente depositada em relação à preservada. O processo de preservação está descrito através de uma série de sub-elementos que documentam os vários aspectos considerados relevantes e que incluem a descrição do processo, o hardware e o software usados, a forma de condução do processo e identificação das linhas orientadoras para a implementação assim como datas de criação e de finalização e ainda o sucesso ou insucesso do processo de preservação. Além dos metadados já referidos podemos verificar que é também atribuída importância à história dos metadados através do elemento Criador do registo de metadados, que pode ser uma pessoa ou uma instituição. Quanto à informação sobre a representação a Biblioteca Nacional da Austrália ainda propõe extensões de alguns metadados estruturais para som, vídeo, texto, bases de dados, software, etc. Também neste caso incluímos a respectiva matriz de metadados. 109 NLA ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Permissão para acções de preservação - - - PDI A Mudança ou perda de funcionalidade - - - PDI A Decisão de depositar (funcional) - - - PDI A Razão da decisão - - - PDI A Insituição responsável - - - PDI A Decisão de depositar (manifestação) - - - PDI A Razão da decisão (manifestação - - - PDI A Tipo de intenção - - - PDI A Processo de preservação Condução do processo - - PDI A Processo de preservação Datas limite - - PDI A Processo de preservação Descrição do processo - - PDI A Processo de preservação Hardware crítico usado no processo - - PDI A NLA ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Processo de preservação Instituição responsável pelo processo - - PDI A Processo de preservação Linhas orientadoras do processo - - PDI A Processo de preservação Mudanças nos recursos - - PDI A Processo de preservação Outros - - PDI A Processo de preservação Razão do processo - - PDI A Processo de preservação Resultados - - PDI A Processo de preservação Software crítico usado no processo - - PDI A Validação - - - PDI A Tipo de estrutura - - - CI E Estrutura técnica dos recursos complexos - - - CI E Descrição do ficheiro Audio Compressão - CI E Descrição do ficheiro Audio Bit rate - CI E NLA ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Descrição do ficheiro Audio Resolução - CI E Descrição do ficheiro Audio Nº da faixa e tipo - CI E Descrição do ficheiro Audio Formato e versão - CI E Descrição do ficheiro Audio Encapsulação - CI E Descrição do ficheiro Audio Duração - CI E Descrição do ficheiro Bases de dados Tipo dos dados e categoria da representação - CI E Descrição do ficheiro Bases de dados Limite mínimo do tamanho dos valores dos dados - CI E Descrição do ficheiro Bases de dados Compressão - CI E Descrição do ficheiro Bases de dados Forma da representação e layout - CI E Descrição do ficheiro Bases de dados Limite máximo do tamanho dos valores dos dados - CI E Descrição do ficheiro Bases de dados Formato e versão - CI E Descrição do ficheiro Executáveis Tipo de programa e versão - CI E NLA ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Descrição do ficheiro Imagem Dimensões - CI E Descrição do ficheiro Imagem Espaço de cor - CI E Descrição do ficheiro Imagem orientação - CI E Descrição do ficheiro Imagem lookup table - CI E Descrição do ficheiro Imagem Compressão - CI E Descrição do ficheiro Imagem Gestão da cor - CI E Descrição do ficheiro Imagem Resolução tonal - CI E Descrição do ficheiro Imagem Cor - CI E Descrição do ficheiro Imagem Formato e versão - CI E Descrição do ficheiro Imagem Resolução - CI E Descrição do ficheiro Texto Divisão estrutural - CI E Descrição do ficheiro Texto Formato e versão - CI E NLA ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Descrição do ficheiro Texto Compressão - CI E Descrição do ficheiro Texto Comnjunto de caracteres - CI E Descrição do ficheiro Texto DTD associada - CI E Descrição do ficheiro Video Formato e versão - CI E Descrição do ficheiro Video Compressão - CI E Descrição do ficheiro Video Frame rate - CI E Descrição do ficheiro Video Dimensões das frames - CI E Descrição do ficheiro Video Duração - CI E Descrição do ficheiro Video Estrutura de codificação vídeo - CI E Descrição do ficheiro Video Som - CI E Requisitos conhecidos do sistema - - - CI E Requisitos de instalação - - - CI E NLA ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Informação de dispositivos de armazenamento - - - CI E Inibidores de acesso - - - CI E Facilitadores do acesso - - - CI E Criador - - - PDI A,D Título - - - PDI A,D Data de criação - - - PDI A,D Editor - - - PDI A,D Identificador persistente Agência responsável - - PDI A,D Identificador persistente Método de construção - - PDI A,D Identificador persistente Valor - - PDI A,D URL Data de validação - - PDI A URL Valor - - PDI A,D 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL d) A comunidade OCLC/RLG Esta comunidade através do grupo de trabalho RLG (Research Libraries Group), já em 1998 mantinha uma matriz de metadados considerados essenciais para uma boa prática de preservação de longo prazo. Considerava 16 elementos/metadados necessários para preservar uma matriz digital a longo prazo, com particular incidência em ficheiros de imagem: Data; Operador; Produtor; Dispositivos de captura; Pormenores de captura; História da mudança; Chave de validação; Encriptação; Marca de água; Resolução; Fonte, Cor; Gestão da cor; Escala de cor/Escala de cinzentos; Dispositivos de controle. Podemos verificar a ausência de metadados adequados a recursos digitais multimédia, páginas Web ou bases de dados, visto que o objectivo desta comunidade era no momento preservar documentos digitalizados e não nascidos digitais. Dado que um dos objectivos da OCLC é encontrar abrangência e consenso em simultâneo, vamos encontrar na actualidade, uma grelha de metadados construída a partir das três em comparação e também de metadados sugeridos no âmbito do WG (Working Group) propriamente dito e a proposta passa, portanto, a contemplar aspectos considerados “lacunas” duma ou de outra. Não devemos, contudo, perder de vista o aspecto ideossincrático de cada comunidade que inibe por vezes a aproximação ao consenso e à interoperabilidade. Como exemplo extremo, podemos referir dificuldades na gestão dos identificadores dentro do próprio repositório. Os ISBN reportam-se a livros e não a páginas Web ou a imagens digitais e ainda existem alguns tipos de suportes que não possuem nenhum esquema de identificação associado. Esta situação leva à obrigação da referência de uma grande variedade de esquemas globais dentro da mesma colecção multimédia, o que é considerado pela comunidade OCLC como um obstáculo à determinação da identificação do pacote de informação para depósito. Este, idealmente, deveria ter associado um único esquema de identificação local e global. Integramos em seguida as matrizes de metadados, tanto da OCLC como do WG tal como fizémos para as comunidades anteriores. 116 OCLC ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Infraestrutura técnica de objectos complexos - - - CI A,E Descrição do ficheiro - - - CI A,E Requisitos de instalação - - - CI A,E Dimensões do objecto (em bytes) - - - CI A,E Inibidores de acesso - - - CI A Facilitadores do acesso - - - CI A Propriedades significativas - - - CI A Funcionalidade - - - CI A Descrição do conteúdo recuperado - - - CI A Perdas de funcionalidades - - - CI A Documentação - - - CI A Programas de representação Processo de transformação Aplicação de acesso Documentação CI E OCLC ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Programas de representação Processo de transformação Ferramenta de transformação Documentação CI E Programas de representação Processo de transformação Ferramenta de transformação Formato de input CI E Programas de representação Processo de transformação Aplicação de acesso Formato de input CI E Programas de representação Processo de transformação Ferramenta de transformação Formato de output CI E Programas de representação Processo de transformação Aplicação de acesso Formato de output CI E Programas de representação Processo de transformação Aplicação de acesso Localização CI E Programas de representação Processo de transformação Ferramenta de transformação Localização CI E Ambiente de hardware Documentação - - CI E Ambiente de hardware Informação sobre o depósito - - CI E Ambiente de hardware Localização - - CI E Ambiente de hardware Requisitos de memória - - CI E Ambiente de hardware Requisitos de processador - - CI E OCLC ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Língua do recurso - - - PDI A Língua dos metadados - - - PDI A Códigos de conteúdos - - - PDI A Tipo de objecto - - - PDI A Composição do objecto - - - PDI A Relações entre ficheiros - - - PDI A Identificador OCLC - - - PDI A Identificador standard - - - PDI A Localização dos objectos - - - PDI A Outros identificadores de metadados - - - PDI A Título - - - PDI A,D Criador - - - PDI A,D OCLC ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Editor - - - PDI A,D Data de criação - - - PDI A,D Descrição do conteudo - - - PDI A,D Descrição resumida do objecto - - - CI A Origem do objecto - - - PDI A Origem do objecto História da custódia - - PDI A Origem do objecto Notas sobre a origem - - PDI A Origem do objecto Razão para preservação - - PDI A História do processo - pré-ingestão Datas limite - - PDI A História do processo - pré-ingestão Forma de condução do processo - - PDI A História do processo - pré-ingestão Linhas orientadoras usadas - - PDI A História do processo - pré-ingestão Mudanças nos recursos - - PDI A OCLC ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META História do processo - pré-ingestão Outros - - PDI A História do processo - pré-ingestão Razão da forma de apresentação - - PDI A História do processo - pré-ingestão Resultados - - PDI A História do processo - pré-ingestão Título do processo - - PDI A Copyright - - - PDI A Notas locais - - - PDI A Propriedades significativas - - - CI A Funcionalidades . - - CI A Descrição do conteúdo representado - - - CI A Documentação - - - CI A Programas de representação Documentação - - CI A Programas de representação Localização - - CI A WG ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Aplicação de display/acesso Documentação - - CI A Aplicação de display/acesso Localização - - CI A Sistema operativo Documentação - - CI A Sistema operativo Localização - - CI A,D Sistema operativo Nome - - CI A,D Requisitos de memória Documentação - - CI E Informação de armazenamento Documentação - - CI E Localização de obtenção do hardware - - - CI E Requisitos de periféricos Documentação - - CI E Identificação local - - - PDI A,D Identificação global - - - PDI A,D Relações entre conteúdos de objectos Identificação - - PDI A,D WG ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Relações entre conteúdos de objectos Manifestação - - PDI A,D Relações entre conteúdos de objectos Tipo de relação - - PDI A,D Relações entre o conteúdo intelectual dos objectos Identificação - - PDI A Relações entre o conteúdo intelectual dos objectos Tipo de relação - - PDI A Origem do objecto - - - PDI A Pré-ingestão - - - PDI A Ingestão - - - PDI A História da manutenção no repositório - - - PDI A Evento Data - - PDI A Evento Designação - - PDI A Evento Notas - - PDI A Evento Procedimento - - PDI A WG ELEMENTOS DE METADADOS SUB-ELEMENTOS_1 SUB-ELEMENTOS_2 SUB-ELEMENTOS_3 AIP TIPO META Evento Responsabilidade - - PDI A Evento Resultado - - PDI A Autenticação - - - PDI A 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL 4.3.2. Simulação de uma matriz de metadados de preservação Com base nos modelos de matrizes de metadados apresentados pelas comunidades referidas e também no modelo proposto pela Biblioteca Nacional da Nova Zelândia184 já referido atrás, fazemos uma proposta que pretende enquadrar-se na política de selecção de uma comunidade nacional, onde o objectivo seja dirigido a publicações electrónicas nacionais, documentos oficiais em formato digital, teses, dissertações e literatura cinzenta produzida na comunidade científica nacional. Qualquer destes recursos digitais pode ser composto por objectos simples e complexos e vamos tentar articular os metadados associados com o modelo OAIS (vide Anexo 1). O objectivo é criar um “Pacote de informação para depósito” contemplando a “Informação sobre o conteúdo” e a “Informação descritiva para a preservação”. Os critérios de criação dos metadados seguem de perto as comunidades que apresentámos no ponto anterior. Optámos por considerar três agrupamentos de metadados relativos a: 1) objectos digitais 2) estratégias de preservação 3) ficheiros Cada conjunto de metadados diz respeito a um único objecto lógico. O objecto pode ser simples, p. ex., um texto em MsWord ou pode ser constituído por múltiplos ficheiros, p. ex. uma publicação electrónica com vários ficheiros HTML, GIF, etc. Através deste conjunto de metadados proposto para um Pacote de informação para depósito pretende-se armazenar informação que nos permita tomar decisões sobre futuras acções de preservação, assim como documentar as estratégias já implementadas, tais como migrações ou emulações. Também se pretende manter informação detalhada sobre os efeitos das opções estratégicas. Outra das preocupações diz respeito à identificação das técnicas usadas para manter a autenticidade das matrizes de preservação, considerando matriz de preservação uma cópia de qualidade que é sujeita a refrescamentos e migrações assim que surgem problemas de obsolência ao longo do tempo. Estes blocos de informação existem no âmbito da Informação descritiva para a preservação nas suas quatro vertentes: Informação sobre o conteúdo, Informação sobre a representação, Informação sobre o contexto e Informação de autenticação. 125 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL No que diz respeito à gestão dos próprios metadados, consideramos essencial que exista identificação de quem executou as acções de preservação, que acções foram executadas e quando tiveram lugar. Optámos por acrescentar os fundamentos da inclusão de cada um dos elementos ou sub-elementos. Para seguir de perto o modelo OAIS optámos pela utilização das abreviaturas AIP (Archive information package), CI (Content information) e PDI (Preservation description information) que enquadram os elementos metadados propostos (Vide Anexo 1). 4.4. OS REPOSITÓRIOS DIGITAIS E A DESCOBERTA E CAPTURA DE METADADOS Um dos objectivos da preservação de recursos que tem sido explicitado ao longo desta tese, é a preocupação de deixar em herança um determinado espólio científico e cultural às gerações futuras. Contudo, não é demais referir que dada a incerteza do ambiente tecnológico mesmo as gerações presentes podem ficar inibidas de aceder a qualquer recurso digital se este não tiver sido objecto de boas práticas na sua criação e manutenção. Para que se encontre um determinado recurso na Internet existem motores de busca que o procuram e o descobrem. Ao mesmo tempo, os repositórios também devem manter boas práticas conducentes à viabilização dessa descoberta. É neste contexto que vamos encontrar o OAI-PMH (Open Archives Intitative Protocol for Metadata Harvesting) que consideramos dever ser implementado pelos repositórios digitais a montante e a jusante de todo o processo de preservação. Não podemos deixar de referir o serviço de acesso já implementado pelo projecto FEDORA (vide 4.2.6). 4.4.1. O OAI-PMH (Open Archives Inititative Protocol for Metadata Harvesting) Os objectivos da OAI185 (Open Archives Initiative) baseiam-se no desenvolvimento de padrões de interoperabilidade que facilitem a eficiência da disseminação de conteúdos. O OAI visa melhorar o acesso a repositórios de publicações electrónicas e os seus públicos-alvo encontram-se no ambiente académico. 184 185 http://www.natlib.govt.nz/en/whatsnew/4initiatives.html LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) - Open Archives Initiative : frequently asked questions (FAQ). Protocol version 2.0. 126 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL O protocolo OAI-PMH suporta variados esquemas de metadados. No mínimo, os repositórios devem ser capazes de devolver registos de metadados em formato DC sem qualificadores adicionais. Opcionalmente, um repositório pode também disseminar registos em outros formatos186. O protocolo OAI-PMH optou por aconselhar a utilização do formato DC por considerar que os 15 elementos evoluíram ao longo dos últimos anos para um standard que dadas as suas valências multidisciplinares tem aplicação como um formato comum. O OAI-PMH e o DCMI mantêm em cooperação um esquema XML para DC sem qualificadores187. 4.4.2. O exemplo do serviço de acesso do Projecto FEDORA188 O projecto FEDORA (Flexible Extensible Digital Object and Repository Architecture) é um repositório digital de sistema aberto (open source) que usa APIs (Application Program Interface) na forma de serviços Web. O sistema do repositório FEDORA encontra-se subdividido em três camadas : Uma camada para o acesso na Web, uma segunda camada que contém o núcleo do subsistema e uma terceira camada que se destina ao armazenamento189. Na perspectiva do acesso, a arquitectura do projecto FEDORA define a disseminação como um fluxo de dados que devolve uma vista do conteúdo do objecto digital e que preenche duas funções: Responder tanto no âmbito genérico como específico Disseminar os conteúdos em função das necessidades do utilizador Logo, a funcionalidade mais interessante deste serviço de acesso é associar, a montante, os recursos a determinadas comunidades de utilizadores, o que facilita a disseminação dos recursos digitais e dos seus metadados, a pedido. O recurso digital e os metadados são fluxos de dados contidos num objecto modelar. O conteúdo do fluxo de dados é identificado através de um URL. Apresentamos na Figura 8 o modelo de objecto do projecto FEDORA extraído da mesma fonte citada atrás. 186 187 188 189 LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) – The Open Archives Initiative Protocol for Metadata Harvesting. Protocol version 2.0. http://www.openarchives.org/pipermail/oai-implementers/2001-December/000261.html http://www.fedora.info STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – The Fedora Project: an opensource digital object repository management system. D-Lib Magazine, 9 (4). 127 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Fig. 8 – Modelo de objecto190 O utilizador, pode ter inserida uma aplicação Web com capacidade para interagir com os serviços de pesquisa FEDORA, ou pode também ser um Web browser ou ainda qualquer cliente fora do espaço do projecto. Dado que o formato de metadados utilizado por este projecto é o METS, que devido às suas características consegue facilmente garantir a interoperabilidade entre repositórios, podemos antever a rápida indexação automática e consequente descoberta dos recursos. 4.5. BOAS PRÁTICAS DE PRESERVAÇÃO RECOMENDADAS NA IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL O primeiro passo a dar no caminho da criação de um repositório digital é, à semelhança de um outro qualquer serviço, delimitar a sua missão e objectivos perante uma determinada comunidade de potenciais utilizadores. Nesta fase é necessário definir critérios sobre que tipo de recursos o repositório vai armazenar durante quanto tempo pretende manter esses recursos qual o método de captura que pretende empreender 190 STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – Op. cit. 128 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Dependendo destas decisões de carácter político mas também técnico/administrativo e em função do período de tempo em que se pretende manter os recursos, estes devem ser sujeitos a uma triagem e depositados separadamente por alguns anos indefinidamente Em seguida podemos, p. ex., agrupar os recursos por afinidades e armazená-los em conjunto, segundo características que nos tragam vantagens no armazenamento e também no acesso. Consideramos que a metodologia de implementação deve percorrer as seguintes etapas191: 1) Implementação do modelo de referência OAIS (ISO 14721:2002). 2) Durante a fase de selecção dos recursos deve ser assegurado que: Os recursos detêm condições tecnológicas capazes de manter a sua permanência no repositório Foi efectuada a verificação da ausência de duplicados Foi carregado o software adicional considerado necessário assim como os códigos fonte quando for possível Foi verificada a existência de restrições de copyright e estabelecidos os contactos necessários com os responsáveis. Se não existir acordo os recursos devem ser preservados com indicação de acesso reservado 3) Fases de ingestão e depósito Atribuição de um identificador único e persistente (além das suas valências já referidas, facilitará também a possibilidade de cruzar referências dentro do próprio repositório) Criação de uma assinatura digital ou de um digest por forma a detectar qualquer alteração produzida no fluxo de bytes. Agrupar os objectos digitais em conjunto com os metadados em formato ZIP ou TAR192 para assegurar que a sua estrutura se mantém intacta e 191 192 http://www.lib.ed.ac.uk/ http://www.webopedia.com/TERM/t/tar.html 129 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL que foi criado um fluxo de bytes. Este procedimento conduz à criação de um pacote de informação para depósito Envio do pacote para a área de depósito Dado que os metadados de preservação sustentam todas as fases do processo de preservação é vital para o processo que todos os metadados possíveis sejam capturados durante a fase de descoberta e captura dos recursos. Os metadados devem ser marcados em XML e devem dividir-se em duas partes: Informação descritiva para preservação – Gere a preservação do recurso (informação sobre a referência + proveniência + contexto + autenticação) Informação sobre a representação – Assegura que o fluxo de bytes possa ser representado no futuro (informação sobre o ambiente tecnológico + informação semântica + informação estrutural) Deve verificar-se se os metadados sobre a representação que acompanham o recurso são suficientemente relevantes e manter as seguintes boas práticas: Depositar sempre que possível cópias de software de fontes abertas (open source) Depositar descrições de tipos MIME (Multipurpose Internet Mail Extensions) em pacotes de informação para depósito separados, para utilização futura quando necessário Depositar as actualizações dos sítios Web com intervalos de tempo regulares 4. Fase de preservação Enviar cópias dos pacotes de metadados descritivos para preservação XML para a área de depósito. Os ficheiros XML serão depositados numa base de dados específica Incluir no pacote de metadados descritivos, informação sobre a referência, contendo campos bibliográficos em DC para assegurar que o recurso possa ser recuperado. Este procedimento facilita, p. ex., o mapeamento de registos MARC se for considerado necessário pelo repositório 130 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL Incluir no pacote de metadados descritivos para preservação a informação sobre o contexto. Esta vai permitir manter a integridade contextual dos ficheiros, isto é, as suas relações com outros ficheiros no repositório Incluir no mesmo pacote informação pormenorizada sobre a proveniência de forma a permitir a confirmação de uma correcta aplicação das normas na fase de ingestão (por vezes é necessário proceder a algumas alterações dos sítios p. ex. para fazer face a activação automática de palavras passe, etc.) Incluir informação sobre a gestão dos direitos e todas as restrições de acesso Tal como temos vindo a referir de forma bastante acentuada ao longo de todo o trabalho é vital que toda a informação acerca do ciclo de vida dos recursos digitais esteja registada e depositada. Os metadados devem reportar quando, como e por quem foi criado o recurso, que alterações ocorreram durante a preservação e quem tem a eles acesso depois de depositados. Todos estes elementos são necessários na perspectiva da implementação sistemática de um conjunto de boas práticas que conduzam a uma eficaz gestão da preservação e posterior acesso aos recursos. 131 4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL 132 5. CONCLUSÃO 5. CONCLUSÃO O crescimento da Web na Internet para uma escala global deu-se muito rapidamente. É talvez na História da Humanidade a difusão mais rápida de uma nova tecnologia que não deixa de evoluir. Neste momento ocorre ume evolução significativa dado que novas arquitecturas substituem páginas estáticas por páginas dinâmicas, costumizadas, que são geradas no momento. Da mesma maneira, dado que a inovação não é linear, o desenvolvimento da Web é imprevisível. A Web começou por ser software com base em protocolos para troca de documentos entre cientistas e investigadores, usando a Internet para fins educacionais e de pesquisa. Nos dias de hoje é quase essencialmente comercial e sujeita a investimentos extraordinários como suporte tecnológico para a economia digital. Os intervenientes, perante a constatação da incapacidade de liderar acções futuras em ambiente tão incerto, tentam pelo menos influenciar o seu direccionamento e o World Wide Web Consortium193 é, nessa perspectiva o forum privilegiado. Um repositório na Internet é inevitavelmente um novo tipo de organização, com competências para responder aos problemas do próprio ambiente. Este pode não estar sediado num espaço físico, pode existir distribuído entre instituições em muitas localidades geográficas através de uma rede global. A preservação digital é um problema com características de urgência na sociedade moderna e ao tentar assegurar a longevidade de uma herança cultural digital o homem enfrenta os desafios do novo paradigma relacionados com a efemeridade dos recursos e das tecnologias. Ao longo desta tese abordámos várias questões no âmbito do mesmo problema e enquadrámos o estado da arte a nível internacional. 193 http://www.w3c.org 133 5. CONCLUSÃO Iniciámos o nosso trabalho com a caracterização de uma biblioteca digital quanto à funcionalidade, aos propósitos e ao tempo de vida pretendido e ponderámos as boas práticas de preservação a ter em conta. Estudámos em seguida o papel das instituições patrimoniais e a enorme responsabilidade que detêm ao pretender deixar às gerações futuras uma herança cultural, histórica e científica em formato digital. É no contexto das instituições patrimoniais que verificámos que há sociedades mais avançadas, onde inclusivamente já existem leis de depósito legal para recursos digitais e outras, tal como a realidade portuguesa, onde isso ainda não acontece. A proposta de diploma de depósito legal está a ser ultimada no momento em que escrevemos este texto. Nela, felizmente, já se contempla o depósito digital. A nível internacional, consideramos que a CDNL (Conference of Directors of National Libraries) e a Unesco têm um papel de liderança de extrema responsabilidade e que a sua orientação e recomendações devem ser tidas em conta também entre nós. Abordámos em seguida a recolha e selecção dos recursos digitais tendo em conta as suas características, o seu ciclo de vida e os objectivos do repositório. No nosso entender, e no âmbito de uma instituição de tipo patrimonial, a selecção de recursos digitais deveria ser de tipo misto, à semelhança do que se passa por exemplo na Biblioteca Nacional da Austrália. Se por um lado a captura automática de recursos através da Web é a opção que reclama menos recursos financeiros e que cobre de forma mais abrangente um determinado espaço geográfico ou temático, por outro, a selecção feita através do elemento humano, garante menos ruído e maior objectividade. Esta opção considera-se à partida mais onerosa pois é necessário um maior número de recursos humanos e ao mesmo tempo as suas competências devem ser de tipo especializado. Em Portugal, na Biblioteca Nacional, existe uma política definida que visa seleccionar diversos tipos de recursos, tais como documentos oficiais, teses e dissertações e publicações electrónicas nacionais ou que tenham interesse para o nosso país e outros documentos de interesse patrimonial. Voltando às opções de captura de recursos verificamos que ao optarmos por um sistema misto de selecção e de snapshots cegos teríamos à nossa disposição não só os documentos considerados mais importantes para a memória do nosso país como um enorme manancial de conteúdos para estudos sociológicos futuros. Considerámos também que é absolutamente indispensável que todas as fases do ciclo de vida dos recursos digitais sejam cumpridas. Só através dessa boa prática se poderá garantir maior longevidade aos recursos digitais. 134 5. CONCLUSÃO Desta forma, foram passados em revista não só a selecção mas também a identificação persistente, a descrição, o armazenamento e finalmente a preservação e o acesso. Na fase final do ciclo de vida dos recursos, considerámos as opções estratégicas de preservação como tópico da maior relevância porque é no seguimento das decisões sobre essa matéria que os recursos sobreviverão por períodos de tempo mais ou menos longos. As opções estratégicas de preservação estão, porém, condicionadas pelos orçamentos pois haverá que despender recursos financeiros de certa forma avultados, consoante a opção. Terá que se ter em conta que os recursos a preservar devem subsistir também em função do acesso. Alguém, um dia, vai querer estudar esses recursos, vê-los, usá-los, e nem todas as estratégias permitem a recuperação do look-and-feel. Mais uma vez ainda, vamos ter que procurar um equilíbrio entre a situação financeira do momento e a forma que vão revestir os recursos digitais que constam da nossa herança. O investimento no âmbito da preservação digital é muito avultado e deve ser pensado a contar com a recolha, o processamento, a validação, a gestão e a documentação associadas, assim como com o armazenamento no repositório e as estratégias de preservação adoptadas. Idealmente, se o valor do recurso existir pelo artefacto teremos que investir em tecnologias de emulação; se não for esse o caso, sendo decidido que não existem problemas por perdas do look-and-feel, então poder-se-á optar, por exemplo, pela migração ou pelo tipo particular de migração que é a opção XML. É necessário ter em atenção as comunidades de utilizadores e a capacidade que cada repositório tem de as projectar no futuro. Ainda ao abordarmos as boas práticas verificámos que a existência de metadados percorre todas as fases do ciclo de vida dos recursos digitais. Considerámos fundamentalmente os metadados de preservação que são de três tipos: a) descritivos, b) administrativos c) estruturais A incidência sobre os últimos dois é relevante, pois é neste espaço que vamos encontrar as descrições dos métodos e das estratégias tomadas para preservação. Os metadados descritivos destinam-se fundamentalmente às fases de acesso e estão para os recursos digitais como os formatos MARC (Machine Readable Cataloguing) para os recursos bibliográficos tradicionais. 135 5. CONCLUSÃO Integrámos no nosso trabalho alguns esquemas de metadados que confirmam a necessidade destes acompanharem as comunidades temáticas. Foge à regra o conjunto de metadados Dublin Core (DC) criado no âmbito OCLC/NCSA para servir um leque alargado de comunidades. Este é, por assim dizer, o standard mais genérico e simultaneamente mais aplicável em qualquer situação que não envolva necessidades demasiado específicas. Pudemos constatar no entanto, ao longo do trabalho, que o DC tem excelente capacidade descritiva para servir o acesso, mas já o mesmo não se passa no que diz respeito à preservação e ao cumprimento da função dos metadados administrativos e estruturais de documentar a história do recurso com estratégias de preservação, componentes de hardware e software, etc. Ao atribuir-lhe qualificadores em larga escala é possível tornar o conjunto dos elementos do DC eficiente em relação ao que cada comunidade pretende. É também de referir que este formato possui enormes valências no que diz respeito à interoperabilidade entre repositórios. No que diz respeito às metodologias para implementação de um repositório digital considerámos fundamental o investimento na confiabilidade, a qual só é atingível através da resolução de questões que dizem respeito a: Aspectos legais onde é necessário ultrapassar a barreira dos direitos de autor e dos direitos de propriedade intelectual. Este assunto apresenta importância acrescida quando abordamos os momentos da disponibilização e acesso. Cabe ao repositório digital negociar com os detentores dos direitos os moldes do acesso e preparar a preservação destes recursos sem permitir a sua divulgação se o acordo entre as partes interessadas a isso conduzir. Quando os prazos legais previstos para a disponibilização pública forem atingidos então esses recursos serão libertados para consulta. Aspectos financeiros provenientes dos altos custos que todo o processo de preservação acarreta e que são muito difíceis de ultrapassar. Não existindo financiamento não existirá seguramente preservação. Esta situação é idêntica à que vivem as bibliotecas com as necessidades de preservar documentos tradicionais para o futuro. Aspectos relacionados com a gestão do risco que ameaça os repositórios digitais e que se liga à integridade dos dados, à reparabilidade dos ficheiros, ao contexto e ligações entre ficheiros dentro do mesmo recurso, às funcionalidades, ao pessoal e aos aspectos legais. 136 5. CONCLUSÃO Aspectos relacionados com o acesso que visam a descoberta dos recursos e a garantia da sua autenticidade. Ainda em relação às metodologias de implementação de um repositório digital é o modelo de referência OAIS desenvolvido no âmbito da NASA, que nos garante um enquadramento genérico, aberto a qualquer comunidade favorecendo a interoperabilidade. Este modelo é seguido pelos repositórios digitais mais relevantes à escala global. Verificámos que a comunidade CEDARS é aquela que pode servir de modelo a outras que, no momento, saberão detectar as suas divergências locais. A existência de um bom núcleo de metadados administrativos é fundamental seja qual for a comunidade em questão e dele vai depender a posterior recuperação dos recursos. No seguimento desta investigação simulámos um conjunto de metadados preparado para ajustar ao OAIS na forma de um pacote de informação para depósito enquadrável numa determinada comunidade. Esta poderia porventura ser do mesmo teor da nacional, dado que tivemos em vista a tipologia de recursos digitais aí preservados a longo prazo (Vide Anexo 1). No que diz respeito ao acesso como um dos objectivos da preservação consideramos a implementação do OAI-PMH um protocolo versátil e ao mesmo tempo uma norma capaz de fornecer os meios para dar visibilidade aos metadados do próprio repositório e por outro lado coligir os metadados recuperados de outros repositórios. Sentimos ainda a necessidade de fornecer algumas orientações para a implementação de um repositório digital confiável, o que concretizámos através dos seguintes tópicos: Implementação do modelo de referência OAIS (ISO 14721:2002) Assegurar que durante a fase de captura e selecção são seguidas as boas práticas relativas a uma boa ingestão e armazenamento assim como se foi verificada a existência de restrições de copyright. Atribuição de identificadores únicos para as fases de ingestão e depósito Inclusão de metadados de preservação que devem ser relativos a todas as fases do ciclo de vida dos recursos 137 5. CONCLUSÃO Ao finalizar este trabalho deparamo-nos com um horizonte de muito trabalho e muita investigação em qualquer dos pontos do ciclo de vida do recurso. Basicamente há a considerar: A recolha dos recursos, assunto que é objecto das orientações mais díspares; As opções dos suportes de armazenamento que para uns autores duram cinquenta anos ou mesmo mais e para outros a sua duração é de dois ou três anos; As opções estratégicas de preservação onde reina a polémica entre os que defendem incondicionalmente a preservação do look-and-feel e os que enfrentam a gestão do problema de forma mais moderada, considerando alternativas em função das comunidades de utilizadores, ou dos recursos financeiros e tecnológicos; O acesso, um dos pontos fundamentais de todo este complicado processo, onde apesar de tudo, encontramos alguma consensualidade, dado que, a já experimentada interoperabilidade entre os sistemas com a existência do padrão Z39.50, tem vindo a interligar a comunidade das bibliotecas; Finalmente o elemento vital que percorre todas as fases e que é a criação de metadados de preservação, assunto este amplamente tratado nesta dissertação. Pensamos que estudos biblio/sociométricos, devem estar na base de qualquer tentativa de criação de repositórios digitais, de pequeno ou grande porte, e pensamos também que deve ser amplamente desenvolvido trabalho ao nível da normalização da terminologia pois esta está muito pouco estabilizada, o que dificulta o entendimento entre sistemas, ao nível das pessoas e das máquinas. É nossa profunda convicção que ultrapassadas todas as barreiras que referimos atrás poderemos garantir às gerações futuras o conhecimento e a plena fruição da sua memória. 138 BIBLIOGRAFIA BIBLIOGRAFIA ABID, Abdelaziz (2001) – Memory of the world : preserving our documentary heritage. 64th IFLA General Conference, Amsterdam, 1998 http://www.ifla.org/IV/ifla64/099-69e.htm (Acedido em 2001-10-24) ANSPER, Arne et al. (2001) - Efficient long-term validation of digital signatures. Lecture Notes in Computer Science, 1992. (Proceedings. 4th International Workshop on Practice and Theory in Public Key Cryptosystems, PKC 2001, Cheju Island, Korea, February 13-15, 2001) http://www.cyber.ee/research/publ/longterm.pdf (Acedido em 2003-01-02) APPS, Ann, MacINTYRE, Ross (2001) – Zetoc : a Dublin Core based current awareness service. Proc. Int. Conf. On Dublin Core and Metadata Aplications, 2001, p. 227-234 http://jodi.ecs.soton.ac.uk/Articles/v02/i02/Apps/apps-v2.pdf (Acedido em 2003-01-08) APPS, Ann, MacINTYRE, Ross (2001) – CABRef : Cross-referencing into an abstract database. Fifth ICCC/IFIF Conference on Electronic Publishing, Canterbury, 2001, http://epub.mimas.ac.uk/papers/appsmacep2001.pdf (Acedido em 2002-04-08) ARVIDSON, Allan, PERSSON, Krister & MANNERHEIM, Johan (2000) - The Kulturarw3 Project : the Royal Swedish Web Archiw3e: an example of "complete" colection of Web pages. IFLA Council and General Conference, 66th, Jerusalem, 2000 http://www.ifla.org/IV/ifla66/papers/154157e.htm (Acedido em 2002-10-16) ASCHENBRENNER, Andreas (2001) – Long-term preservation of digital material : building na archive do preserve digital cultural heritage from the Internet. Wien, Institut für Softwaretechnik und Interaktive System. 110 p. (Diplomarbeit) AUTENTICITY IN A DIGITAL ENVIRONMENT (2000) - Washington, CLIR, : p. 8-21. ISBN 1-8833477-7 http://www.clir.org/pubs/reports/pub92/pub92.pdf (Acedido em 2003-01-08) BARTEL, J., et al. (2002) – Sygnature syntax and processing : W3C Recommendation. February. http://www.w3.org/TR/xmldsig-core/ (Acedido em 2003-01-08) BEAGRIE, Neil, GREENSTEIN, Daniel (1998) – A strategic policy for creating and preserving digital collections : a report do the Digital Archiving Working Group. British Library Research and Innovation Report N. 167. 1998 http://ahds.ac.uk/strategic.pdf (Acedido em 2003-03-20) 139 BIBLIOGRAFIA BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement of requirements in the research process. D-Lib Magazine, June. http://www.dlib.org/dlib/june98/06bearman.html (Acedido em 2002-12-27) BECKETT, Dave, MILLER, Eric & BRICKLEY, Dan (2002) – Expressing simple Dublin Core in RDF/XML. Dublin Core Metadata initiative. http://dublincore.org/documents/2002/07/31/dcmesxml/ (Acedido em 2003-01-28) BELLINGER, Meg (2002) - Understanding digital preservation : a report from OCLC. CLIR. http://www.clir.org/pubs/reports/pub107/bellinger.html (Acedido em 2002-12-27) BOGART, John W.C. Van (1995) - Magnetic tape storage and handling : a guide for libraries and archives. Washington, The Commission on Preservation and Access & National Media Laboratory http://www.clir.org/pubs/reports/pub54/ (Acedido em 2002-10-21) BORBINHA, José (2001) - Metadata – Conceito e sua relevância para as bibliotecas. Actas do 7º Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas. Porto, 2001 BORBINHA, José Luís et al. (2002) – Manifesto para a preservação digital. Cadernos BAD, N. 2. CABRAL, Maria Luísa (1998) – Microfilmagem e digitalização : a coexistência pacífica. Páginas a&b, 2, p. 41-52 CABRAL, Maria Luísa (2002) – Preservation and conservation in South Europe : a survey among national libraries. In : IFLA council and General Conference, 68th, Glasgow, 2002 http://www.ifla.org/IV/ifla68/papers/129-109e.pdf (Acedido em 2003-01-08) CAMPOS, Fernanda Maria (2001) – Bibliotecas digitais : uma nova perspectiva de valorização e acesso ao património cultural. In : Actas do 7º Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, Porto, 2001. CDNL (Conference of Directors of National Libraries) (1996) – The legal deposit of electronic publications. Unesco http://www.unesco.org/Webworld/memory/Editorial (Acedido em 2002-09-26) CLAVEL-MERRIN, Genevieve (2000) - NEDLIB list of terms. NEDLIB Report Series Editor., 17p., ISBN 906259151-5 (NEDLIB Report Series ; 7) COMMISSION ON PRESERVATION AND ACCESS AND THE RESEARCH LIBRARIES GROUP – Preserving digital Information. Report of the Task Force on Archiving of Digital Information. 1996. http://www.rlg.org/ArchTF/ (Acedido em Dezembro de 2001) CONSULTATIVE COMMITTEE FOR SPACE DATA SYSTEMS (2002) – Reference Model for an Open archive Information System (OAIS), Blue Book (CCSDS 650.0-B-1). http://wwwclassic.ccsds.org/documents/pdf/CCSDS-650.0-B-1.pdf (Acedido em 2003-01-15) CORDEIRO, Maria Inês (2001) – Tecnologias, bibliotecas e arquitectura de informação : dos sistemas aos objectos. In : Actas do 7º Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, Porto, 2001 140 BIBLIOGRAFIA DCMI (2002) – DCMI elements and element refinements : a current list. Dublin Core Metadata initiative http://dublincore.org/usage/terms/dc/current-elements/ (Acedido em 2003-01-28) DE NIET, Marco, OSKAMP, Liesbeth (2001) TEL Digital deposits : state of the art. 2nd draft version. 87 p. http://www.europeanlibrary.org/doc/tel_results_d11_v02.doc Acedido em 17 de Abril de 2002) DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) - DELOS Brainstorming Report. San Cassiano, 2001. ERCIM-02-W02 http://delosnoe.iei.pi.cnr.it/activities/researchforum/Brainstorming/ brainstorming-report.pdf (Acedido em 2003-02-18) DIGITAL PRESERVATION TESTBED WHITE PAPER (2001) – Migration : context and current status. Den Haag, ICTU. http://www.digitaleduurzaamheid.nl/bibliotheek/docs/Migration.pdf (Acedido em 2003-06-02) DURANTI, Luciana (2001) – The long term preservation of authentic electronic records. In : APERS, M. G. et al. (eds.): VLDB 2001, Proceedings of 27th International Conference on Very Large Data Bases, September 11-14, 2001, Roma, Italy. Morgan Kaufman, ISBN 1-55860-804-4 http://www.vldb.org/conf/2001/P625.pdf (Acedido em 2003-01-06) DUREAU, J. M., CLEMENTS, D. W. G. - Princípios para a preservação e conservação de espécies bibliográficas. – Edição em língua portuguesa por Maria da Conceição Casanova, Maria Fernanda Casaca Ferreira, Maria Luísa Macedo. Lisboa : Biblioteca Nacional, 1992, 26 p., ISBN 972-565155-3. Edição original publicada por IFLA Section on Conservation, Netherlands em 1986. EITELJORG II, Harrison et al. (2002) - Archaeology Data Service CAD : A Guide to Good Practice. AHDS. http://ads.ahds.ac.uk/project/goodguides/cad/ (Acedido em 2002-09—16) GRANGER, Stewart (2000) - Emulation as a digital preservation strategy. D-Lib Magazine, 6 (10) http://www.dlib.org/dlib/october00/granger/10granger.html (Acedido em 2003-01-09) GROUT, Catherine, PURDY, Phill & RYMER, Janine (>2000) - Creating digital resources for the visual arts : standards and good practice. AHDS/VADS, Guides to good practice http://vads.ahds.ac.uk/guides/creating_guide/contents.html (Acedido em 2002-06-25) HENDLEY, Tony (1998) – Comparison of methods and costs of digital preservation. British Library Research and Inovation Report; 106. ISBN 0-7123-9713-2 http://www.ukoln.ac.uk/services/elib/papers/tavistock/hendley/hendley.html (Acedido em 2003-03-18) HIRTLE, Peter (2000) – Archival authenticity in a digital age. In : Autenticity in a digital environment. Washington, CLIR : 8-21. ISBN 1-88334-77-7. http://www.clir.org/pubs/reports/pub92/hirtle.html (Acedido em 2002-12-31) 141 BIBLIOGRAFIA HODGE,G.M. (2000) - Best practices for digital archiving : an information life cycle approach. D-Lib Magazine [em linha], January v. 6, no. 1. [referência de 25 de Junho de 2002]. Disponível na Internet em : http://www.dlib.org/dlib/january00/01hodge.html HODGE,G.M. & CARROLL, Bonnie C. (1999) - Digital electronic archiving : the state of the art and the state of the practice. International Council for Scientific and Technical Information. http://www.icsti.org/99ga/digarch99_TOCP.pdf (Acedido em 2002-06-25) HOEVEN, Hans van der & ALBADA, Joan van (1996) - Lost memory : libraries and archives destroyed in the Twentieth Century. Paris, UNESCO, 70 p. http://www.unesco.org/Webworld/mdm/administ/pdf/LOSTMEMO.PDF (Acedido 2002.12.10) IBM/KB (2001) – Long term preservation study. DNEP. http://www.kb.nl/kb/ict/dea/ltp/ltpstudyoverview.pdf (Acedido em 2003-01-12) JONES, Maggie & BEAGRIE, Neil (2001) – Preservation management of digital materials : a handbook. London, The British library, 139 p. ISBN 0-7123-0886-5 KAHLE, Brewster (2002) – The Internet Archive. RLG Diginews, 6 (2) , p. 1-7 http://www.rlg.org/preserv/diginews/diginews6-2.html (Acedido em 10.12.2002) KISLOVSKAY, Galina A. (2000) - A good beginning makes a good ending ? In : Preservation management : between policy and practice. ECPA, The Hague, 1999. http://www.knaw.nl/ecpa/PUBL/pmc.pdf (Acedido em 2002.09.24) Koman, Richard (2002) – How the wayback machine works. The O´Reilly Network. http://www.oreillynet.com/lpt/a/1295 (Acedido em 2003-01-20) KOVACS, Diane K , ELKORDY, Angela (2000) – Collection development in cyberspace : building an electronic library collection. Library Hi Tech, 18 (4), p. 335-359 KUNY, Terry (1998) – The digital dark ages? Challenges in the preservation of electronic information. International Preservation News, 17. http://www.ifla.org/VI/4/news/17-98.htm#2 (Acedido em 2002-05-23) LAGOSE, Carl (2001) – Keeping Dublin Core simple ; cross domain discovery or resource description ? D-Lib Magazine, 7 (1), 13 p. http://www.dlib.org/dlib/january01/lagoze/01lagoze.html (Acedido 2002-11-29) LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) - Open Archives Initiative : Frequently Asked Questions (FAQ). Protocol version 2.0 (Document version 2002/06/10T11:00:00Z) http://www.openarchives.org/documents/FAQ.html (Acedido em 2003-02-27) LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) – The Open Archives Initiative Protocol for Metadata Harvesting. Protocol version 2.0. (Document version 2002/12/19T16:00 :00Z) http://www.openarchives.org/documents/FAQ.html (Acedido em 2003-02-27) 142 BIBLIOGRAFIA LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format investigation. Council of Library and Information Resources http://www.clir.org/pubs/reports/pub93/contents.html (Acedido em 2003-01-09) LOR, Peter Johan, SONNEKUS, Elisabeth A. S. (1997) Guidelines for legislation for national library services. UNESCO. http://www.unesco.org/Webworld/nominations/guidelines1_h.htm (Acedido em 2002-09-25) LORIE,R.A. (2001) The long term preservation of digital information. RLG DigiNews. 5 (3) http://www.rlg.org/preserv/diginews/diginews5-3.html (Acedido em 2002-11-10) LOPES, Maria Inês (1998) – As bibliotecas e a organização do conhecimento : evolução e perspectivas. Leituras : Rev. Bib. Nac., Lisboa, S. 3, N. 2 LOPES, Pedro Faria, CARDOSO, Gustavo & MOREIRA, Maria Vasconcelos (2002) - Preservação de publicações electrónicas na Internet: os arquivos imperfeitos. Cadernos BAD, N. 2. LUNN, Jean (Prep.) (1981) – Guidelines for legal deposit legislation. Paris, General Information Programme and UNISIST – Unesco. (PGI-81/WS/23) LUPOVICI, Catherine (1998) – L’information bibliographique des documents electroniques. B.B.F. 43 (4) http://www.enssib.fr/bbf/bbf-98-4/09-lupovici.pdf (Acedido em 2003-03-20) LUPOVICI, Catherine (2001) – Les besoins et les données techniques de preservation. 67th IFLA Council and General Conference, Boston, 2001 http://www.ifla.org/IV/ifla67/papers/163-168f.pdf (Acedido em 04.09.2002) LUPOVICI, Catherine, MASANÈS, Julien (2000) – Metadata for the long term preservation of electronic publications. Nedlib Report Series; 2. ISBN 906259146-9 LUPOVICI, Catherine & MASANÈS, Julien (eds.)(2001) - What's next for Digital Deposit Libraries? Preserving online content for future generation. In : 5th European Conference on Research and Advanced Technology for Digital Libraries. ECDL Workshop. Darmstadt, 2001. http://bibnum.bnf.fr/ecdl/2001/index.html (Acedido em 2002.12.15) LYMAN, Peter (2002) - Archiving the World Wide Web. In : Building a national strategy for digital preservation : issues in digital media archiving. CLIR. ISBN 1-887334-91-2. http://www.clir.org/pubs/reports/pub106/Web.html (Acedido em 2003-01-21) LYNCH, Clifford (1999) - Canonicalization : a fundamental tool fo facilitate preservation and management of digital information. D-Lib Magazine, 5 (9). http://www.dlib.org/dlib/september99/09lynch.html (Acedido em 2003-01-02) LYNCH, Clifford (2000) - Authenticity and integrity in the digital environment : an exploratory analysis of the Central Role of Trust. In: Authenticity in a digital environment. Washington, CLIR. http://www.clir.org/pubs/reports/pub92/pub92.pdf (Acedido em 2003-01-02) MIGRATION : context and current status (2001) - The Hague, Digital preservation testbed white paper, ICTU http://www.digitaleduurzaamheid.nl/bibliotheek/docs/Migration.pdf (Acedido em 2003-01-09) 143 BIBLIOGRAFIA NLA (2002) – A digital preservation policy for the National library of Australia. http://www.nla.gov.au/policy/digpres.html (Acedido em 2002-09-29) OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital objects : a review of the satte of the art : a white paper. 49 p. http://www.oclc.org/digitalpreservation/presmeta_wp.pdf. (Acedido em 16.01.2002) OCLC/RLG Working Group on preservation metadata (2001) - A recommendation for content information. 19 p. http://0clc.org/research/pmwg/contentinformation.pdf (Acedido em 14.04.2002) OCLC/RLG Working Group on preservation metadata (2002) – Preservation metadata and the OAIS Information Model : a metadata framework to support the preservation of digital objects: a report. 51 p. http://oclc.org/research/pmwg/ (Acedido em 2003-01-09) PASKIN, Norman (2003) – The DOI handbook. 3rd ed. International DOI Foundation. http://www.doi.org/handbook_2000/DOIHandbookv3-0-0.pdf (Acedido em 2003-05-28 PHILIPS, Margaret E. (2001) - Ensuring long-term access to online publications. Journal of Electronic Publishing, 4 (4). 9 p. http://www.press.umich.edu/jep/04-04/phillips.html (Acedido em 2003-02-23) POLIVY, Daniel J. & TAMASSIA, Roberto (2002) - Authenticating distributed data using Web services and XML signatures. Proc. ACM Workshop on XML Security, ACM Press, 2002 http://www.cs.brown.edu/cgc/stms/papers/xmlsec2002.pdf (Acedido em 2003-01-06) RAUBER, Andreas & ASCHENBRENNER, Andreas (2001) - Part of our culture is born digital : on efforts to preserve it for future generations. Trans - Internet-Zeitschrift für Kulturwissenschaften. 10 http://www.ifs.tuwien.ac.at/~aola/publications/trans10.html (Acedido em 2003-01-20) RLG-OCLC (2002) - Trusted digital repositories : attributes and responsabilities, Mountain View:Research Libraries Group. http://www.rlg.org/longterm/repositories.pdf (Acedido em 2003-03-20) ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholarship. London, National Preservation Office, 44 p. http://www.bl.uk/services/preservation/occpaper.pdf (Acedido em 2003-03-20) ROTHENBERG, Jeff (1995) – Ensuring the longevity of digital documents. Scientific American, 272 (1), p. 24-29 ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR. (Expanded version) http://www.clir.org/pubs/archives/ensuring.pdf (Acedido em 2002-12-27) ROTHENBERG, Jeff (1999) - Avoiding Technological Quicksand: Finding a Viable Technical Foundation for Digital Preservation. CLIR http://www.clir.org/pubs/reports/rothenberg/contents.html (Acedido em 21.10.2002) ROTHENBERG, Jeff (2000) - An experiment in using emulation to preserve digital publications. Den Haag, Koninklijke Bibliotheek. 70 p. ISBN 9062-59-1442 144 BIBLIOGRAFIA RUSSEL,Kelly & SERGEANT,Derek (1999) - The Cedars project : implementing a model for distributed digital archives. RLG DigiNews, 3 (3) http://www.rlg.ac.uk/preserv/diginews/diginews33.html (Acedido em 2003-01-20) SHAFER, Keith (s.d.) – Introduction to Persistent Uniform Resource Locators. http://purl.oclc.org/docs/inet96.html (Acedido em 2002.07.08) STAPPEL, Johan, DE NIET, Marco, JOCHUM-STARK, Dorothea (2001) – TEL Metadata : state of the art review. 3rd and final draft review. 81 p. http://www.europeanlibrary.org/doc/tel_results_d31_v03.doc (Acedido em 2002-09-24) STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – The Fedora Project: an opensource digital object repository management system. D-Lib Magazine, 9 (4). http://www.dlib.org/dlib/april03/staples/04staples.html (Acedido em 2003-06-16) TAMASSIA, Roberto (2001) Efficient low-cost authentication of distributed data and transactions. Conduit 10 (2) http://www.cs.brown.edu/cgc/stms/papers/conduit2001.pdf (Acedido em 200301-08) VEEN, Theo van & CLAYPHAN, Robina (2002) – Metadata in the context of the European Library Project. Proc. Int. Conf. Dublin Core and Metadata for e-Communities. Florence, 2002. http://www.bncf.net/dc2002/program/ft/paper2.pdf (Acedido em 2003-02-27) WEBER, Hartmut (1993) - Opto-electronic storage : an alternative to filming ? CLIR - Commission on Preservation and Access. http://www.clir.org/pubs/reports/Weber/Weber.html (Acedido em 2002-12-27) WHEATLEY, Paul (2001) – Migration : a CAMiLEON discussion paper. Ariadne, 29 http://www.ariadne.ac.uk/issue29/camileon/ (Acedido em 2003-01-08) WERF, Titia van der (2000) – CDNL/CENL activities with identifiers. 66th IFLA Council and General Conference. Jerusalém, 2000, 5 p. http://www.ifla.org/IV/ifla66/papers/033-82e.htm (Acedido em 2002-12-27) WERF-DAVELAAR, Titia van der (1999) – Long-term preservation of electronic publications : the NEDLIB project. D-Lib Magazine, 5 (9) http://www.dlib.org/dlib/september99/vanderwerf/09vanderwerf.html (Acedido em 2003-0130) WENDLER, R. – Metadata in the library. LDI Update. Harvard University Library Notes, N. 1286, 1999, p. 4-5. http://hul.harvard.edu/publications/library_notes/pdfs/HULN_1286.pdf (Acedido em 2002-01-16) 145 ANEXO 1 SIMULAÇÃO DE MATRIZ DE METADADOS DE PRESERVAÇÃO Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: OBJECTO Sub-elementos: Nome do objecto AIP: CI Definição: Nome dado pelo criador/seleccionador Fundamento: Fornece identificação rápida Obrigatório: Sim Formato: Texto Exemplo: Mário de Sá Carneiro, 1890-1916 Fonte: Entrada manual ou dada pelo sistema Sobreposição: Partilha Metadados descritivos Notas: Nenhuma Grupo Metadados Elementos Metadados: Nº de referência OBJECTO Sub-elementos: AIP: CI Definição: Nº existente na origem Fundamento: Obrigatório: Relaciona inequivocamente metadados administrativos de preservação e descritivos Sim Formato: Depende da aplicação Exemplo: BN B 11401V Fonte: Entrada manual ou dada pelo sistema Sobreposição: Partilha Metadados descritivos Notas: Nenhuma Grupo Metadados Elementos Metadados: ID do Objecto OBJECTO Sub-elementos: AIP: CI Definição: Identificador interno do repositório Fundamento: Cada objecto requer uma identificação inequívoca no repositório Obrigatório: Sim Formato: Número sequencial Exemplo: 500 Fonte: Entrada manual ou dada pelo sistema Sobreposição: Partilha Metadados descritivos Notas: Nenhuma Página 1 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: OBJECTO Sub-elementos: Identificador persistente AIP: CI Definição: Identificação internacional para objectos digitais Fundamento: Obrigatório: Cada objecto requer uma identificação inequívoca a nível global e não local Sim Formato: PURL Exemplo: http://purl.pt/1 Fonte: Entrada manual ou dada pelo sistema Sobreposição: Partilha Metadados descritivos Notas: Nenhuma Grupo Metadados Elementos Metadados: Localização no file system OBJECTO Sub-elementos: AIP: CI Definição: Localização do objecto depositado no file system Fundamento: Obrigatório: Necessário para gerir e fornecer acesso administrativo no repositório Sim Formato: Texto Exemplo: ...\objectos\preservação\ Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Data criação matriz preserv. OBJECTO Sub-elementos: AIP: CI Definição: Data em que a matriz de preservação entrou no repositório Fundamento: Obrigatório: A data relacionada com outros metadados demonstra a responsabilidade do repositório Sim Formato: aaaammdd Exemplo: 20030205 Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: A data deve ser expressa num formato normalizado Página 2 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: OBJECTO Sub-elementos: Composição técnica AIP: CI Definição: Obrigatório: Descreve aspectos técnicos do objecto. Inclui o nº de ficheiros e o nº total de ficheiros MIME Gerir a preservação obriga a que se conheça o estrutura do objecto lógico assim como os componentes individuais Sim Formato: Texto Exemplo: Composto por 20 ficheiros - 14 gif, 3 audio/wav, 3 texto e 2 .exe Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Identifica o objecto como simples ou complexo Grupo Metadados Elementos Metadados: Tipo de estrutura do objecto OBJECTO Sub-elementos: Fundamento: AIP: CI Definição: O tipo de objecto a descrever no registo de metadados Fundamento: Obrigatório: A determinação da estratégia de preservação depende do conhecimento da estrutura do objecto Sim Formato: Texto Exemplo: Imagem, Recurso interactivo Fonte: Entrada manual ou dada pelo sistema Sobreposição: Partilha Metadados descritivos Notas: Lista de tipos do DCMI pode ser útil Grupo Metadados Elementos Metadados: Ambiente hardware OBJECTO Sub-elementos: AIP: CI Definição: Ambiente de hardware necessário para a preservação da matriz Fundamento: Obrigatório: Identificação do mínimo de requisitos de hardware para a matriz de preservação correr Sim Formato: Texto Exemplo: IBM PentiumIII PC com 256 MB RAM Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Página 3 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: OBJECTO Sub-elementos: Ambiente software AIP: CI Definição: Ambiente de softwareIde necessário para a preservação da matriz Fundamento: Obrigatório: Identificação do mínimo de requisitos de software para a matriz de preservação correr Sim Formato: Texto Exemplo: Windows 2000 Versão 5 - Build 2195 Pack 2 Fonte: Entrada manual Sobreposição: Nenhuma Notas: Pode-se acrescentar se a última versão é compatível com a anterior. Também se são necessários plugg-ins ou requisitos especiais de memória, etc. Grupo Metadados Elementos Metadados: Requisitos de instalação OBJECTO Sub-elementos: AIP: CI Definição: Fundamento: Requisitos especiais necessários para instalar o objecto. Instruções ou nºs de série, etc. Fornecer acesso a objectos com requisitos especiais de instalaçã Obrigatório: Não Formato: Texto Exemplo: Nºs de série, ou ficheiros readme.txt Fonte: Entrada manual Sobreposição: Nenhuma Notas: Esta informação é particulamente importante para futuras operações de migração de dados Grupo Metadados Elementos Metadados: Inibidores de acesso OBJECTO Sub-elementos: AIP: CI Definição: Obrigatório: Métodos utilizados para restringir o acesso, tais como encriptação que podem ter impacto nos procedimentos de preservação Na ausência desta informação pode não ser possível aceder ao objecto ou migrá-lo Não Formato: Texto Exemplo: Passwords. Chaves de encriptação, etc. Fonte: Entrada manual Sobreposição: Nenhuma Notas: Nenhuma Fundamento: Página 4 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: OBJECTO Sub-elementos: Facilitadores de acesso AIP: CI Definição: Obrigatório: Métodos utilizados para favorecer o acesso à matriz de preservação que devem ser preservados ao longo do tempo Possibilitar a activação dos facilitadores de acesso em qualquer acção de preservação Não Formato: Texto Exemplo: O objecto contém links entre os ficheiros Fonte: Entrada manual Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Quirks OBJECTO Sub-elementos: Fundamento: AIP: CI Definição: Fundamento: Quaisquer características do original que podem parecer perdas de funcionalidade ou mudança do look-and-feel numa matriz de preservação Evitar o desperdício de tempo com problemas inerentes ao origina Obrigatório: Não Formato: Texto Exemplo: Fonte: Nos objectos produzidos nas versões HTML anteriores à versão 4, a etiqueta do formato texto já não é suportada Entrada manual Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Autenticação OBJECTO Sub-elementos: AIP: PDI Definição: Meios técnicos de autenticação de objectos Fundamento: Verificar e manter a integridade dos dados Obrigatório: Sim Formato: Texto Exemplo: Aplicação de checksum Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Página 5 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: OBJECTO Sub-elementos: Criador dos metadados AIP: PDI Definição: Nome da pessoa ou organização criadora dos metadados Fundamento: Registar a história da responsabilidade da criação dos metadados Obrigatório: Sim Formato: Texto Exemplo: Lurdes Saramago, FCUL Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Data criação registo metadados OBJECTO Sub-elementos: AIP: PDI Definição: Data da criação do registo de metadados Fundamento: Fornece possibilidade de saber quando o registo foi criado Obrigatório: Sim Formato: aaaammdd Exemplo: 20030306 Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Observações OBJECTO Sub-elementos: AIP: PDI Definição: Obrigatório: Qualquer informação considerada pertinente para a preservação do objecto ou ficheiros Cobrir qualquer informação que pode não caber nas outros campos Não Formato: Texto Exemplo: Fonte: Este objecto pode ser aberto unicamente através de uma drive local Entrada manual Sobreposição: Nenhuma Notas: Nenhuma Fundamento: Página 6 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: ID do objecto AIP: PDI Definição: Identificador interno do repositório Fundamento: Cada objecto requer uma identificação inequívoca no repositório Obrigatório: Sim Formato: Número sequencial Exemplo: Fonte: Entrada manual ou dada pelo sistema Sobreposição: Partilha Metadados descritivos Notas: Nenhuma Grupo Metadados Elementos Metadados: Qual a estratégia ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: AIP: PDI Definição: Descrição do processo Fundamento: Obrigatório: Identificação de cada tipo de processo de preservação de uma matriz Sim Formato: Texto Exemplo: Migração por obsolência Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Motivo da estratégia ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: AIP: PDI Definição: Motivação para aplicação da estratégia Fundamento: Motivação da decisão sobre a estratégia Obrigatório: Sim Formato: Texto Exemplo: Criação de uma matriz num formato actual Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Página 7 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: Operador AIP: PDI Definição: Nome da pessoa ou organização que levou a cabo a operação Fundamento: Obrigatório: Fornece informação acerca da pessoa/ organização que levou a cabo a operação Sim Formato: Texto Exemplo: Lurdes Saramago, FCUL Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Autorização ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: AIP: PDI Definição: Obrigatório: Nome da pessoa ou organização responsável pela aprovação da estratégia Fornece informação acerca da pessoa/ organização que tomou a decisão Sim Formato: Texto Exemplo: Lurdes Saramago, FCUL Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Data da autorização ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: Fundamento: AIP: PDI Definição: Data da autorização da estratégia Fundamento: Obrigatório: Fornece possibilidade de saber quando for autorizado o processo de conversão Sim Formato: aaaammdd Exemplo: Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Página 8 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: Hardware usado AIP: PDI Definição: Todo o hardware usado na operação Fundamento: Obrigatório: Fornece a história do hardware usado para executar a operação e identifica os componentes necessários a reter para uso futuro Não Formato: Texto Exemplo: Drive de disketes de 5 1/4'' Fonte: Entrada manual Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Software usado ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: AIP: PDI Definição: Todo o software usado na operação Fundamento: Obrigatório: Fornece a história do software usado para executar a operação e identifica os componentes necessários a reter para uso futuro Não Formato: Texto Exemplo: MS Word 2000 Fonte: Entrada manual Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Etapas ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: AIP: PDI Definição: Descrição completa das acções de preservação Fundamento: Fornece informação que permite reverter o processo ou repeti-lo Obrigatório: Sim Formato: Texto Exemplo: Fonte: Doc. em Wordstar/Migração do doc. Para MS Word 2000/Mudança de nome do ficheiro/Testes de fidelidade/Colocação da matriz de preservação do repositório digital Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Página 9 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: Resultado AIP: PDI Definição: Resultados da estratégia Fundamento: Obrigatório: Fornece um registo de resultados resultantes da estratégia de preservação. Inclui a confirmação das mudanças pretendidas Sim Formato: Texto Exemplo: Migração bem sucedida Fonte: Entrada manual Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Linhas orientadoras ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: AIP: PDI Definição: Todas a normas utilizadas durante as acções de preservação Fundamento: Fornece consistência ao processo Obrigatório: Sim Formato: Texto Exemplo: Manual de Operações de preservação digital X Fonte: Entrada manual Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Data de conclusão do processo ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: AIP: PDI Definição: Data e hora da conclusão do processo Fundamento: Obrigatório: Identifica a sequência das acções de preservação significantes para a história do objecto Sim Formato: aaaammdd Exemplo: Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Página 10 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: ESTRATÉGIA DE PRESERVAÇÃO Sub-elementos: Observações AIP: PDI Definição: Obrigatório: Qualquer informação considerada pertinente para a preservação do objecto ou ficheiros Cobrir qualquer informação que pode não caber nas outros campos Não Formato: Texto Exemplo: Fonte: A migração foi complicada pelo nº elevado de links de ficheiros de gráficos Entrada manual Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: ID do objecto FICHEIROS Sub-elementos: Fundamento: AIP: PDI Definição: Identificador interno do repositório Fundamento: Cada objecto requer uma identificação inequívoca no repositório Obrigatório: Sim Formato: Número sequencial Exemplo: Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: ID do ficheiro FICHEIROS Sub-elementos: AIP: PDI Definição: Identificador interno do repositório Fundamento: Cada objecto requer uma identificação inequívoca no repositório Obrigatório: Sim Formato: Número sequencial Exemplo: Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Página 11 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: FICHEIROS Sub-elementos: Contexto estrutural AIP: PDI Definição: Obrigatório: Informação acerca da localização de um ficheiro no contexto do objecto lógico Fornece um registo acerca das principais relações entre objectos complexos ou grupos de objectos Não Formato: Texto Fundamento: Exemplo: Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Nome do ficheiro e extensão FICHEIROS Sub-elementos: AIP: PDI Definição: Nome e extensão do ficheiro Fundamento: Permite identificar o ficheiro em conjunto com o ID do objecto Obrigatório: Sim Formato: Texto Exemplo: 100_20.doc Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Dimensão do ficheiro FICHEIROS Sub-elementos: AIP: PDI Definição: Fundamento: Espaço ocupado por um ficheiro no servidor, expresso num formato normalizado Facilita o planeamento de depósito no repositório Obrigatório: Sim Formato: Abreviaturas normalizadas Exemplo: Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Página 12 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: FICHEIROS Sub-elementos: Data e hora da criação do ficheiro AIP: PDI Definição: Fundamento: Data e hora em que o ficheiro foi criado, retirada dos cabeçalhos do ficheiro Fornece informação de autenticação Obrigatório: Não Formato: aaaammdd Exemplo: Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Tipos e formatos MIME FICHEIROS Sub-elementos: AIP: PDI Definição: Tipo de ficheiro ou formato, em regra um formato MIME Fundamento: Obrigatório: Fornece informação sobre as ferramentas que podem abrir o ficheiro e ajuda a identificar os ficheiros de tipos particulares Sim Formato: Texto Exemplo: Imagem/gif ; aplicação/msword Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: Versão FICHEIROS Sub-elementos: AIP: PDI Definição: Versão do formato do ficheiro Fundamento: Obrigatório: Fornece informação sobre as ferramentas que podem abrir o ficheiro e ajuda a identificar os ficheiros de tipos particulares Não Formato: Texto Exemplo: MSWord 2000 Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Página 13 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: FICHEIROS Sub-elementos: Indicador global AIP: PDI Definição: No caso do objecto ser complexo, é o ficheiro global Fundamento: Obrigatório: Identifica qual o ficheiro necessário para representar um objecto complexo integralmente Não Formato: Texto Exemplo: Index.html / Start.exe Fonte: Entrada manual Sobreposição: Nenhuma Notas: Nenhuma Grupo Metadados Elementos Metadados: IMAGEM FICHEIROS Sub-elementos: Resolução AIP: PDI Definição: Resolução especial da imagem expressa em pixels por cm ou dots por cm Fundamento: Obrigatório: Formato: Exemplo: 600 dpi ; 1500 d/cm Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: IMAGEM FICHEIROS Sub-elementos: Dimensões AIP: PDI Definição: Dimensões da imegem expressa em pixels na vertical e na horizontel Fundamento: Obrigatório: Formato: Exemplo: 4096x6144 pixels Fonte: Sobreposição: Notas: Página 14 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: IMAGEM FICHEIROS Sub-elementos: Resolução tonal AIP: PDI Definição: O bit depth de cada pixel Fundamento: Obrigatório: Formato: Exemplo: 1;8;24 Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: IMAGEM FICHEIROS Sub-elementos: Espaço de cor AIP: PDI Definição: O espaço de cor usado na imagem Fundamento: Obrigatório: Formato: Exemplo: Escala de cinzentos ; RGB Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: IMAGEM FICHEIROS Sub-elementos: Gestão de cor AIP: PDI Definição: Qualquer sistema usado para acrescentar consistência de cor ao longo da captura, display e output da imagem Fundamento: Obrigatório: Formato: Exemplo: PhotoCD; OptiCal; Profile/80; Softproof (Pfotoshop pug-in) Fonte: Sobreposição: Notas: Página 15 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: IMAGEM FICHEIROS Sub-elementos: Lookup table AIP: PDI Definição: Localização e codificação para todos os CLUT usados para mapear desde o depth bais maixo ao mais alto Fundamento: Obrigatório: Formato: Exemplo: Residente (se o CLUT se encontra no ficheiro de imagem), Base64 (Se o CLUT estiver codificado em binário) Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: IMAGEM FICHEIROS Sub-elementos: Orientação AIP: PDI Definição: Como a imagem digitalizada é armazenada relativamente ao topo da imagem Fundamento: Obrigatório: Formato: Exemplo: 000 (se a orientação é alinhada com o topo da imagem): 090 (se o topo da imagem está 90 graus desviado, seguindo os ponteiros do relógio) Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: IMAGEM FICHEIROS Sub-elementos: Compressão AIP: PDI Definição: O tipo e o nível de compressão Fundamento: Obrigatório: Formato: Exemplo: ITU Grupo 4 Fonte: Sobreposição: Notas: Página 16 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: AUDIO FICHEIROS Sub-elementos: Resolução AIP: PDI Definição: A frequência da amostra em kHz Fundamento: Obrigatório: Formato: Exemplo: 44.1kHz Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: AUDIO FICHEIROS Sub-elementos: Duração AIP: PDI Definição: O tempo de gravação audio em minutos e segundos ou minutos, segundos, 100ºs de segundo e frames Fundamento: Obrigatório: Formato: Exemplo: 67 minutos 12 segundos; 03:12:24:20 Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: AUDIO FICHEIROS Sub-elementos: Bit rate AIP: PDI Definição: Word length used to encode the audio. Consequentemente uma indicação de uma série dinâmica Fundamento: Obrigatório: Formato: Exemplo: 16 bit, 24 bit Fonte: Sobreposição: Notas: Página 17 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: AUDIO FICHEIROS Sub-elementos: Compressão AIP: PDI Definição: O tipo e o nível de compressão Fundamento: Obrigatório: Formato: Exemplo: MPEG 3 Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: AUDIO FICHEIROS Sub-elementos: Encapsulação AIP: PDI Definição: O formato de saída e a versão Fundamento: Obrigatório: Formato: Exemplo: Real Audio II Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: AUDIO FICHEIROS Sub-elementos: Nº e tipo de pista AIP: PDI Definição: Nº de pistas e realações umas com as outras Fundamento: Obrigatório: Formato: Exemplo: 1.2 pista stereo;2.single track;3.5 canal surround Fonte: Sobreposição: Notas: Página 18 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: VÍDEO FICHEIROS Sub-elementos: Dimensões das frames AIP: PDI Definição: Resolução em pixels de uma única frame Fundamento: Obrigatório: Formato: Exemplo: 640 pixels x 480 pixels Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: VÍDEO FICHEIROS Sub-elementos: Duração AIP: PDI Definição: O tempo de gravação vídeo em minutos e segundos ou minutos, segundos, 100ºs de segundo e frames Fundamento: Obrigatório: Formato: Exemplo: 67 minutos 12 segundos; 03:12:24:20 Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: VÍDEO FICHEIROS Sub-elementos: Frame rate AIP: PDI Definição: O frame rate normalizado para vídeo por segundo Fundamento: Obrigatório: Formato: Exemplo: 25 fps Fonte: Sobreposição: Notas: Página 19 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: VÍDEO FICHEIROS Sub-elementos: Compressão AIP: PDI Definição: O tipo e o nível de compressão Fundamento: Obrigatório: Formato: Exemplo: MPEG 3 Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: VÍDEO FICHEIROS Sub-elementos: Estrutura de codificação AIP: PDI Definição: O tipo de estrutura de codificação e a versão Fundamento: Obrigatório: Formato: Exemplo: MPEG 3 Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: VÍDEO FICHEIROS Sub-elementos: Som AIP: PDI Definição: Parâmetros de som incorporados numa estrutura simples de ficheiro de vídeo. Pode incluirtodos os campos especificados em audio Fundamento: Obrigatório: Formato: Exemplo: Fonte: Sobreposição: Notas: Página 20 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: TEXTO FICHEIROS Sub-elementos: Compressão AIP: PDI Definição: O tipo e o nível de compressão Fundamento: Obrigatório: Formato: Exemplo: ficheiro .zip Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: TEXTO FICHEIROS Sub-elementos: Jogo de caracteres AIP: PDI Definição: Jogo de caracteres usado no documento Fundamento: Obrigatório: Formato: Exemplo: ASCII; Unicode Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: TEXTO FICHEIROS Sub-elementos: DTD associada AIP: PDI Definição: Nome da DTD aplicada à estrutura do texto Fundamento: Obrigatório: Formato: Exemplo: EAD Fonte: Sobreposição: Notas: Página 21 de 22 Simulação de Matriz de Metadados de Preservação Grupo Metadados Elementos Metadados: TEXTO FICHEIROS Sub-elementos: Divisões estruturais AIP: PDI Definição: Divisões lógicas num ficheiro de texto estruturado Fundamento: Obrigatório: Formato: Exemplo: Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: OBJECTO Sub-elementos: Relações dos objectos AIP: PDI Definição: Documenta relações dos objectos ao ambiente Fundamento: Identifica as relações existentes entre o objecto e ambiente Obrigatório: Não Formato: Texto Exemplo: Fonte: Sobreposição: Notas: Grupo Metadados Elementos Metadados: OBJECTO Sub-elementos: Gestão de direitos AIP: PDI Definição: Restrições de acesso aos utilizadores Fundamento: Permite dar ou não acesso aos utilizadores Obrigatório: Sim Formato: Texto Exemplo: Fonte: Entrada manual ou dada pelo sistema Sobreposição: Nenhuma Notas: Nenhuma Página 22 de 22 ANEXO 2 GLOSSÁRIO GLOSSÁRIO ARQUITECTURA PEER-TO-PEER Tipo de rede em que cada estação de trabalho tem capacidades e responsabilidades equivalentes. Difere de uma arquitectura de cliente-servidor na qual existem computadores que estão dedicados ao serviço de outros computadores. http://www.webopedia.com/TERM/p/peer_to_peer_architecture.html (acedido em 200303-21) API (APPLICATION PROGRAM INTERFACE) Conjunto de rotinas, protocolos e ferramentas para construção de aplicações de software. http://www.webopedia.com/TERM/A/API.html (acedido em 2003-06-16) CDWA (CATEGORIES FOR THE DESCRIPTION OF WORKS OF ART) Esquema de metadados criado no âmbito da Art Information Task Force (AITF). Define um conjunto de campos para a descrição de objectos de arte. Com efeito, tem paralelismo com o Dublin Core, mas é muito mais especializado no âmbito e na função. Distingue entre informação intrínseca do item (objecto de arte, arquitectura ou conjunto de itens) e informação extrínseca, tal como informação sobre pessoas lugares e conceitos relacionados com o trabalho. Tal como o DC não está ligado a nenhuma DTD mas pode ser incorporado em sistemas XML. Existe outro sistema similar ao CDWA que é o Visual Resources Association Core Categories, que tenta definir campos fulcrais para a descrição de recursos visuais e também acrescenta informação sobre cópias tais como imagens digitais. Ainda está em testes. http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02) CHECKSUM Esquema de detecção de erros que consiste em acompanhar cada mensagem por um valor numérico baseado no conjunto de bits que compõem a mensagem. O receptor aplica a mesma fórmula e verifica se o valor numérico é o mesmo. Se isso não acontecer, a mensagem pode considerar-se corrompida. http://www.webopedia.com/TERM/c/checksum.html (acedido em 2003-06-16) DIGEST Representação de um texto na forma de um conjunto de dígitos, criados usando uma fórmula intitulada one-way hash function. http://www.webopedia.com/TERM/m/message_digest.html (acedido em 2003-05-25) DUBLIN CORE (DC) Esquema de metadados composto por uma lista de 15 campos desenhados inicialmente para descrever recursos com base na Web, de tal forma que permitisse aos motores de busca encontrá-los. Não é uma aplicação XML mas desenha elementos que podem ser incorporados nesse tipo de aplicações (como p. ex. METS). Devido ao seu âmbito genérico os seus elementos podem ser qualificados de forma a limitar o seu campo de acção, o que limita as suas funcionalidades de pesquisa cruzada mas aumenta a precisão. ODC tem um grande potencial como conjunto de metadados para recursos digitais, mas na maior parte das vezes tem que ser acrescentado por informação mais específica adequada às necessidades dos objectos. Como não contém nele próprio uma DTD ou um Esquema XML necessita ser usado em conjunto ou embutido numa aplicação XML. http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02) EAD (ENCODED ARCHIVAL DESCRIPTION) DTD XML aplicada na comunidade arquivistica. Devido à sua grande facilidade de ligar objectos digitais é capaz de descrever colecções digitais da mesma maneira que análogos tradicionais. É também desenhado por forma a mapear padrões chave tais como MARC, que permite que os registos EAD sejam pesquisados no seguimento de outros formatos estabelecidos. O formato EAD tem capacidade para descrever uma colecção digital e a sua estrutura interna, desde o mais alto nível da colecção até aos itens individuais. As suas descrições individuais são todavia limitadas. http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02) ESQUEMA DE METADADOS (METADATA SCHEME) Fornece a estrutura formal desenhada para identificar a estrutura de conhecimento de uma dada disciplina e para proceder à sua interligação com a informação da disciplina. Desta forma é criado um sistema de informação que orienta a identificação, descoberta e uso da informação no contexto da disciplina. http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html (acedido em 2002-06-02) GRID Tipo de arquitectura de rede. Ao contrário das redes convencionais que têm o seu ponto fulcral nas comunicações entre dispositivos, a arquitectura GRID aproveita os ciclos de não processamento de todos os computadores na rede para resolver problemas de excessiva intensidade de tráfego para máquinas stand-alone. http://www.webopedia.com/TERM/g/grid_computing.html (acedido em 2003-02-22) IMS Esquema de metadados que se destina à gestão de recursos de ensino on line. É uma DTD para XML e inclui componentes que fornecem metadados descritivos e administrativos e foi desenhado para mapear DC. Enquanto indiscutivelmente potente já foi criticado como muito complexo e não é muito usado nas bibliotecas digitais. http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02 INTEROPERABILIDADE Capacidade de dois ou mais sistemas ou componentes trocarem informação e a manipularem sem apoio de outros sistemas. http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html (acedido em 2002-06-02) MARC (MACHINE READABLE CATALOGUING) Padrão estabelecido para a criação de registos para catálogos em linha. Tem características para descrição de informação bibliográfica mas tem fraca capacidade para a descrição de metadados administrativos ou estruturais. É também limitado quanto à descrição de incunábulos ou manuscritos que podem estar incluídos numa colecção digital. Mapeamentos ao formato MARC existem em quase todos os sistemas de metadados. http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02 LOOK-AND-FEEL Forma, aspecto e características externas de usabilidade. METADADOS Informação estruturada, que pode estar inserida num cabeçalho e que descreve os recursos a que se reporta. Exemplos de metadados são os elementos do catálogo de uma biblioteca. Enquanto os recursos interessam ao utilizador final os metadados interessam às pessoas ou aos programas que têm que manusear a informação. Os metadados estão presentes no processo de recuperação da informação ao proporcionar aos utilizadores a descoberta da existência dessa informação, que a localizem e que sirva para a identificar. Frequentemente os metadados descrevem o conteúdo, a descrição física, a localização, o tipo, a forma da informação, e também que informação é necessária para a sua gestão: migrações, datas de expiração, segurança, autenticação e formato dos ficheiros. CLAVEL-MERRIN, Genevieve. NEDLIB list of terms. NEDLIB Report Series Editor. 2000, 17p., ISBN 906259151-5 (NEDLIB Report Series ; 7) http://info.wgbh.org/upf/glossary.html (acedido em 2002-06-02) Metadados são dados estruturados, codificados que descrevem características da informação e que ajudam na sua identificação, acesso e gestão. http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html acedido em 2002-06-02 Tipos de metadados : 1) Metadados descritivos: informação que descreve o conteúdo intelectual de um recurso, tal como o formato MARC ou um esquema similar 2) Metadados administrativos: informação que permite a manipulação dos recursos por um repositório: pode incluir informação acerca da forma da sua digitalização, do formato de armazenamento, etc. informação de copyright e licenciamentos e informação necessária para a preservação de longo prazo (metadados de preservação) 3) Metadados estruturais: informação que liga objectos a outros objectos para formar unidades lógicas (p. ex. informação que relaciona imagens ou páginas de um livro a outras e dessa forma se constrói o livro) Em geral só os metadados descritivos são visíveis para o utilizador final. http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02 Num contexto de preservação digital, os metadados identificam o recurso, determinam a sua responsabilidade, pormenorizam o conteúdo, estabelecem as relações contextuais com outros recursos, fornecem os pormenores técnicos e o conhecimento da cadeia de bites de forma a que seja possível recuperar o recurso e fornecem informação legal. METS (METADATA ENCODING & TRANSMISSION STANDARD) Standard desenhado especificamente para codificar metadados descritivos, administrativos e estruturais de recursos de uma biblioteca digital. Surge no seguimento do MOA (Making of America II). É escrito em Esquema XML e por isso necessita de recorrer a software que lide com este novo formato. O formato METS depende de um sistema complicado de referências cruzadas entre documentos e é gerado automaticamente em vez de ser editado manualmente. http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02) MIME (MULTIPURPOSE INTERNET MAIL EXTENSIONS) Formatação específica para mensagens em formato não ASCII de forma a que estas possam ser enviadas através da Internet. Permite enviar e receber ficheiros de gráficos, áudio, ou vídeo através de sistemas de email. Adicionalmente comporta outros conjuntos de caracteres além de ASCII. Existem alguns tipos MIME predefinidos, p. ex.: GIF ou PostScript http://www.webopedia.com/TERM/M/MIME.html (acedido em 2003-03-02) OBJECTO DIGITAL (TERMINOLOGIA OAIS) Qualquer recurso que pode ser armazenado ou recuperado, i.e., tornado significativo, por um computador. Definição retirada de : Russel, Kelly & Sergeant, Derek (1999) – The Cedars Project: Implementing a model for distributed digital archives. RLG Diginews, 3 (3) http://www.rlg.ac.uk/preserv/diginews/diginews3-3.html (acedido em 2003-01-20) ONE-WAY HASH FUNCTION Algoritmo que permite transformar mensagens ou textos numa sequência de dígitos com o propósito de garantir a gestão da segurança. One way significa que é praticamente impossível afastar o texto original da sequência. http://www.webopedia.com/TERM/O/one-way_hash_function.htm (acedido em 2003-0525) ONIX Aplicação XML desenhada para proporcionar aos editores e livreiros a troca de metadados essenciais. Como consequência traz muitas facilidades de descrição bibliográfica, preços e informação de stoks, mas é muito limitado em termos de metadados administrativos ou estruturais. Tem também capacidade limitada para descrever outros recursos que não livros impressos. http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02) OPEN ARCHIVAL INFORMATION SYSTEM (OAIS) Modelo conceptual para um repositório digital desenvolvido sob os auspícios do CCSDS (NASA Consultative Committee for Space Data Systems). Este modelo determina terminologia e esclarece conceitos importantes para o repositório digital, identifica os componentes chave e os processos comuns à maioria da actividade de depósito digital e propõe um modelo informacional para objectos digitais e metadados associados. Este modelo pode ser aplicado a um leque alargado de objectos nascidos digitais ou mesmo objectos com existência física e não comporta assunções acerca de estratégias de preservação. O modelo OAIS é entendido no âmbito duma organização de pessoas e sistemas cuja responsabilidade é preservar a informação e disponibilizá-la a uma determinada comunidade. http://info.wgbh.org/upf/glossary.html (acedido em 2003-03-21) OPAC (ONLINE PUBLIC ACCESS CATALOG) Catálogo bibliográfico das colecções acessíveis em linha. PLUG-AND-PLAY Capacidade de um sistema informático automaticamente configurar mecanismos de expansão a novos serviços e dispositivos. Deve ser possível acrescentar funcionalidades sem recorrer a mais elementos de configuração ou à utilização de dip-switches ou jumpers. http://www.webopedia.com/TERM/p/plug_and_play.html (acedido em 2003-02-22) PRESERVAÇÃO DIGITAL Conjunto de operações de gestão a empreender capazes de assegurar a manutenção a longo prazo de uma cadeia de bytes e o acesso continuado ao seu conteúdo. http://oclc.org/research/pmwg/ (acedido em 2003-03-21) PURL (PERSISTENT UNIFIED RESOURCE LOCATION) Funcionalmente um PURL é um URL que não aponta directamente para a localização do recurso mas sim para um serviço de resolução intermédio. Este associa o PURL com o URL e retorna o URL para o cliente. Em gíria da Web é um padrão http para redireccionamento. http://www.purl.oclc.org (acedido em 2003-03-21) RDF (RESOURCE DESCRIPTION FRAMEWORK) Aplicação de XML que não é um esquema de metadados de per si, mas um sistema para os codificar através de um enquadramento padronizado. Desenhada inicialmente para descrever recursos da Internet, fornece um caminho normalizado de descrição dos nomes dos elementos e a troca de informação sobre eles. RDF expressa-se usualmente em XML e pode ser usado como enquadramento para muitos esquemas de metadados. http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02) REGISTO Contexto de arquivo Item informacional gerado, coligido ou recebido desde o início no âmbito de uma actividade individual ou institucional, que contenha suficiente conteúdo, contexto e estrutura que forneça prova da existência dessa actividade Contexto de base de dados Colecção de itens relacionados tratados como um todo numa base de dados REPOSITÓRIO DIGITAL CONFIÁVEL Um repositório digital confiável é aquele cuja missão é assegurar a manutenção e o acesso continuado a uma designada comunidade a recursos digitais confiáveis, agora e no futuro. Os repositórios confiáveis podem assumir diferentes formas : algumas instituições podem optar por construir os seus próprios repositórios enquanto outras podem optar por contratar serviços externos. http://oclc.org/research/pmwg/ (Acedido em 2003-01-09) TEI (TEXT ENCODING INITIATIVE) Norma para codificar textos electrónicos. Sistema modular, integra um conjunto de etiquetas às quais podem ser acrescentadas outras para adequação a aplicações particulares tais como transcrições de manuscritos. Inclui facilidades para metadados descritivos, a maior parte dos quais está localizada no cabeçalho TEI, comporta também a parte do documento que contenha informação acerca do documento electrónico propriamente dito e da fonte de onde foi extraído. O cabeçalho foi desenhado para mapear o formato MARC. O formato TEI é muito usado em projectos com uma grande componente textual. http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02) XML (EXTENSIBLE MARKUP LANGUAGE) Linguagem desenhada inicialmente para marcar texto electrónico, mas devido às suas propriedades de robustez, à sua independência face a softwares e à fácil intercomunicabilidade entre sistemas, a sua estrutura mapeia facilmente objectos digitais. Um sistema XML pode ser aplicado de duas maneiras: 1. DTD (Document type definition) método antigo que lista quais as etiquetas (tags) que devem ser utilizadas num documento XML assim como o seu conteúdo e relações entre elas 2. Um método mais recente de codificar XML é um esquema XML, que define as regras que um documento XML deve seguir num outro documento XML. O esquema XML é mais potente que o DTD. http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02) Z39.50 Protocolo (ANSI/NISO Z39.50-1950/ISO23950) que define a interoperabilidade entre cliente e servidor (origem e alvo) e permite ao cliente pesquisar a base de dados, identificar os recursos segundo determinados critérios e recuperá-los. http://www.loc.gov/z3950/agency/ (acedido em 2003.05.25) ANEXO 3 DESDOBRAMENTO DE SIGLAS E ACRÓNIMOS DESDOBRAMENTO DE SIGLAS E ACRÓNIMOS AHDS : Arts and Humanities Data Service AIP : Archive information package API : Application Program Interface ASCII : American Standards Code for Information Interchange CAMiLEON : Creative Archiving at Michigan & Leeds : Emulating the Old on the New CCSDS : Consultative Committee for Space Data Systems CEDARS : CURL Exemplars in digital archives project CLIR : Council on Library and Information Resources COBRA : Computorized Bibliographic Record Actions CURL : Consortium of University Research Libraries DC : Dublin Core DCMI : Dublin Core Metadata Inciciative DIP : Dissemination information package DOI : Digital object identifier DSEP : Deposit System Electronic Publications DSP : Digital Services Project (NLA) DSTC : Distributed Systems Technology Centre (NLA) DTD : Document Type Definition EAD : Encoding Archival Description EPCA : European Comission on Preservation and Access EVA : Elinkeinoelämän Valtuuskunta (the acquisition and archiving of electronic network publications) FEDORA : Flexible Extensible Digital Object and Repository Architecture HTML : Hypertext Modelling Text IFLA : International Federation of Library Associations InterPARES : International Research on Permanent Authentic Records in Electronic Systems) ISAD(G) : International Standard for Archive Description JISC : Joint Information Systems Committee of the Higher and Further Education Councils Kulturarw3 : The Royal Swedish Web Archiv3 LDI : Library Digital Initiative METS : Metadata Encoding and Transmission Standard MIME : Multipurpose Internet Mail Extensions NASA : National Aeronautics and Space Administration NBN : National Bibliographic Name NEDLIB : Networked European Deposit Library NLA : National Library of Australia OAI : Open Archives Initiative OAI-PMH : Open Archives Initiative – Protocol for Metadata Harvesting OAIS : Open Archival Information System Reference Model OCLC : Online Computer Library Center PAC : Preservation and Conservation PADI : Preserving Access to Digital Information PANDORA : Preserving and Accessing Networked DOcumentary Resources of Australia PDF : Portable document format PURL : Persistent Uniform Resource Locator RDF : Resource Description Framework RLG : Research Libraries Group SGML : Standard Generalized Markup Language SIP : Submission Information Package SOAP : Simple Object Access Protocol STMS : Secure Transaction Management Systems UML : Unified Modeling Lanuage UNESCO : United Nations Educational, Scientific and Cultural Organization URI : Uniform Resource Identifier URL : Uniform Resource Locator URN : Uniform Resource Name UVC : Universal Virtual Computer VEO : VERS Encapsulated Object VERS : Victorian Electronic Record Strategy W3C : World Wide Web Consortium WIPO : World Intellectual Property Organization WSDL : Web Services Description Language XML : Extensible Markup Language ANEXO 4 SÍTIOS RECOMENDADOS NA ÁREA DA PRESERVAÇÃO DIGITAL SÍTIOS RECOMENDADOS CAMiLEON : Creative Archiving at Michigan & Leeds : Emulating the Old on the New http://www.si.umich.edu/CAMILEON/about/aboutcam.html Projecto conjunto das universidades de Michigan (USA) e Leeds (UK). Desenvolve e avalia estratégias de preservação digital de longo prazo, com especial interesse na estratégia de emulação. CEDARS : Curl Exemplars in Digital Archives Project http://www.leeds.ac.uk/cedars/ Projecto conjunto das universidades de Leeds, Cambridge e Oxford no Reino Unido. Dedica-se a estudar metodologias e boas práticas no campo da preservação digital. Financiado pelo JISC, teve início em 1998 e terminou em 2002. CLIR : Council on Library and Information Resources http://www.clir.org/ Organização não lucrativa patrocinada por mais de 160 instituições americanas, a maioria universidades. Através de projectos, programas e publicações tenta aperfeiçoar e garantir o acesso à informação a gerações futuras. CURL : Consorcium of University Research Libraries http://www.curl.ac.uk/about/ Consórcio que promove a investigação em ciências documentais e da informação, assim como o ensino e a aprendizagem em bibliotecas universitárias no Reino Unido. Composto pelas seguintes universidades : Aberdeen, Birmingham, Bristol, British Library, Cambridge, Dublin (Trinity), Durham, Edinburgh, Glasgow, Leeds, Liverpool, London (Senate House), LSE, Imperial, KCL, UCL, JRULM, National Library of Scotland, National Library of Wales, Newcastle, Nottingham, Oxford, Southampton, Sheffield e Warwick. DC : Dublin Core http://dublincore.org/ Conjunto de 15 elementos de metadados para descrição de recursos digitais na Internet. A iniciativa Dublin Core é também um polo de discussão, aberto, com interesse no desenvolvimento da interoperabilidade de esquemas de metadados. DELOS : Network of Excellence on Digital Libraries http://delos-noe.iei.pi.cnr.it/ Iniciativa da Comissão Europeia aberta à participação e contribuição de investigadores, visando a promoção de investigação em bibliotecas digitais na Europa. DLF : Digital Library Federation http://www.diglib.org/ Consórcio de bibliotecas e outras organizações pioneiras no uso das tecnologias de informação digital. Através dos seus membros orienta as bibliotecas na identificação de padrões e boas práticas para a gestão das colecções digitais e para o acesso em rede. DPC : Digital Preservation Coalition http://www.dpconline.org/graphics/ Consórcio criado em 2001 para fazer face aos desafios urgentes da preservação de recursos digitais no Reino Unido e internacionalmente de forma a poder garantir a existência futura de uma memória digital global. DSP : Digital Services Project http://www.nla.gov.au/dsp/ Projecto da Biblioteca Nacional da Austrália que visa assegurar a gestão das colecções digitais assim como a sua preservação e acesso ao longo do tempo. ECPA: European Commission on Preservation and Access http://www.knaw.nl/ecpa/ Plataforma europeia para discussão e cooperação de instituições patrimoniais nas áreas da preservação e acesso. Promove o intercâmbio de conhecimentos e experiências. Organiza encontros de trabalho e conferências. EVA : the acquisition and archiving of electronic network publications http://www.lib.helsinki.fi/eva/english.html Projecto conjunto de bibliotecas, editores e organizações especializadas no âmbito de programa estratégico do Ministério da Educação da Finlândia. Visa criar metodologias e ferra- mentas para capturar, registar e arquivar recursos digitais distribuídos através da Internet e investigar as condições para a sua preservação nas bibliotecas. FEDORA : Flexible Extensible Digital Object and Repository Architecture O projecto FEDORA tem sede na biblioteca da Universidade da Virgínia nos Estados Unidos da América e é desenvolvido no âmbito de uma parceria com a Universidade de Cornell. É subsidiado pela a Fundação Andrew W. Mellon. IFLA : International Federation of Library Associations http://www.ifla.org Organização que lidera internacionalmente os interesses das bibliotecas e serviços de informação. É ao mesmo tempo fonte de informação de referência em todas as áreas relacionadas com as ciências da documentação e informação. JISC : Joint Information Systems Committee of the Higher and Further Education Councils http://www.jisc.ac.uk/ Promove o uso de sistemas e tecnologias da informação no ensino superior e de pósgraduação no Reino Unido. KULTURARW3 : The Swedish Archive http://www.ifla.org/IV/ifla66/papers/154-157e.htm Projecto que investiga métodos de recolha, preservação e acesso aos recursos digitais suecos, através da Internet. NEDLIB : Networked European Deposit Library http://www.kb.nl/coop/nedlib/ Projecto conjunto das bibliotecas nacionais europeias. Visa construir uma infraestrutura básica na qual uma rede europeia de bibliotecas de depósito possa operar. O seu objectivo é assegurar que os recursos digitais do presente sejam acessíveis no futuro. NLC : Electronic Collections Coordinating Group - Networked Electronic Publications Policy and Guidelines http://www.nlc-bnc.ca/9/8/index-e.html Grupo de trabalho da Biblioteca Nacional do Canadá. Coordena, entre outros, o problema da preservação digital de longo prazo OCLC : Online Computer Library Center, Inc. http://www.oclc.org/digitalpreservation/about/archive/ Consórcio que apoia cerca de 41000 bibliotecas em 82 países. Além de muitos outros serviços fornece acesso a recursos digitais a longo prazo, assim como procede à sua preservação. PADI : Preserving Access to Digital Information http://www.nla.gov.au/padi/ Portal temático australiano totalmente vocacionado para a preservação digital PANDORA : Preserving and Accessing Networked Documentary Resources of Australia http://pandora.nla.gov.au/ Projecto de depósito de recursos digitais no âmbito da Biblioteca Nacional da Austrália que visa dedicar-se à preservação digital de longo prazo. Consórcio formado pelas State Library of Victoria, ScreenSound Australia, State Library of South Australia, State Library of New South Wales, State Library of Western Australia, Northern Territory Library and Information Service, State Library of Queensland e National Library of Australia. RLG : Research Libraries Group http://www.rlg.org/rlg.html Consórcio de mais de 160 instituições, em todo o mundo, pioneira no desenvolvimento de soluções cooperativas para os problemas da gestão de colecções, tais como aquisição, fornecimento e preservação de informação. TEL : The European Library http://inf2.pira.co.uk/factsheets/inform/digicult/tel.html#consortium Consórcio europeu que acompanha o desenvolvimento de bibliotecas digitais com vista à criação de uma futura biblioteca digital europeia baseada em colecções digitais distribuídas. Tem nas suas funções, além de outras, o desenvolvimento de um conjunto consensual de abordagens para as bibliotecas nacionais nas suas relações com os editores ao nível do depósito legal. VERS : Victorian Electronic Record Strategy http://www.prov.vic.gov.au/vers/ Projecto australiano. Congrega um conjunto de padrões, linhas orientadoras e projectos de implementação cujo objectivo é a autenticidade dos recursos digitais em arquivo criados e geridos pelo governo australiano.