1.1.1.1
DEPARTAMENTO DE CIÊNCIAS E TECNOLOGIAS DA INFORMAÇÃO
PRESERVAÇÃO DIGITAL DE LONGO PRAZO
Estado da arte e boas práticas em repositórios digitais
Maria de Lurdes Tainha Saramago Rodrigues
(Licenciada em Línguas e Literaturas Modernas
Variante Estudos Portugueses)
Dissertação para a obtenção do Grau de Mestre em
Estudos de Informação e Bibliotecas Digitais
Orientador: Drª Fernanda Maria Guedes de Campos
Co-Orientador: Prof. Doutor Pedro Faria Lopes
Lisboa, 20 de Julho de 2003
AGRADECIMENTOS
O meu primeiro e mais sentido agradecimento vai para a minha orientadora Sra. Dra. Fernanda Maria Guedes de Campos que de forma sábia me acompanhou ao longo da elaboração desta dissertação.
Agradeço ainda ao Sr. Prof. Doutor Pedro Faria Lopes por ter aceite ser co-orientador da
dissertação, pelos seus bons conselhos e orientações finais.
Agradeço à minha família pela paz de espírito que me proporcionou durante estes dois
anos de trabalho intenso e em especial ao meu marido pela sua presença e apoio, muitas
vezes técnico.
Agradeço às minhas colegas Dra. Isabel Goulão e Dra. Margarida Meira pela companhia e
amizade constantes.
Agradeço também ao meu colega Dr. Paulo Leitão pela paciência de me ter ouvido e pelas
boas sugestões que me apresentou.
i
“… much as monks of times past, it falls to librarians
and archivists to hold to the tradition which reveres history and the published heritage of our times”
Terry Kuny, 1998
ii
RESUMO
Aborda-se o estado da arte da preservação de recursos digitais na perspectiva da sua preservação de longo prazo. São enunciadas as práticas e as diversas metodologias tidas actualmente como as mais adequadas para se obviar à fragilidade física dos suportes e à
vulnerabilidade do meio digital, assim como a perdas inerentes à preservação de recursos
nos mais diversos meios e formatos.
A recolha e selecção de recursos a preservar são também pontos que desenvolvemos. Coligimos exemplos reais que espelham as abordagens das comunidades que consideramos
mais avançadas nesta matéria.
São focados os aspectos tecnicamente mais inovadores do ponto de vista da utilização de
metadados e a sua relação com as diversas estratégias implementáveis, nomeadamente a
emulação, a migração, a encapsulação, a aplicação do UVC (Universal Virtual Computer) e
o XML. São ainda referidas as boas práticas quanto a metadados de preservação e são
integrados alguns esquemas que confirmam o acompanhamento das respectivas comunidades em que se inserem, as quais partem de um esquema padrão que elegem, e evoluem
numa perspectiva de adaptação ao próprio ambiente.
A metodologia de implementação de repositórios digitais à qual nos dedicámos é baseada
no modelo de referência OAIS desenvolvido no âmbito da NASA. Este modelo encontra-se
em vias de ser implementado pelos repositórios digitais mais relevantes à escala global.
Verificámos que a comunidade CEDARS é aquela que, dadas as suas características pode
servir de modelo.
No seguimento desta investigação simulámos um conjunto de metadados preparado para
ajustar ao OAIS na forma de um pacote de informação para depósito passível de ser adaptado a uma comunidade com características similares às da comunidade nacional.
Acrescentámos de forma sistematizada as boas práticas que devem ser mantidas pelas instituições que pretendem implementar repositórios ou bibliotecas digitais.
Palavras chave : Preservação digital; Boas práticas; Metadados; Estratégias de preservação; Migração; Emulação; OAIS
iii
iv
ABSTRACT
The long-term digital preservation is focused paying special attention to the state of the art
of the practices and methodologies that can tackle the physical fragility of supports and the
vulnerability of the digital environment. The minimization of information loss during the
preservation process through the various formats and platforms is addressed.
The selection of resources to preserve is pointed out, as well as real life cases depicted
from the most up-to-date approaches of several communities.
We have stressed the most promising techniques of metadata usage and their relationship
with the various strategies available, e.g. emulation, migration, encapsulation, “Universal
Virtual Computer” and XML.
The good practices of preservation metadata are stressed alongside some metadata
schema.
The digital repositories methodology that we have adopted is based upon the OAIS reference model developed within NASA. This model is about to be implemented by the world
most relevant digital repositories.
We have studied with care the most important digital preservation communities in the
world and we have considered the CEDARS community as it is one that can be looked as a
standard.
On the aftermath of our investigation we have simulated a subset of metadata to be implemented within the OAIS model in the form of a deposit information package. The area
of application should be the national community.
We have included, in a systematic way, the good practices that must be object of maintenance by the various institutions that want to implement digital repositories and digital libraries.
Keywords :
Digital preservation; Good practices; Metadata; Preservation strategies; Migration; Emulation; OAIS
v
vi
ÍNDICE
RESUMO ............................................................................................................ iii
ABSTRACT........................................................................................................... v
1. INTRODUÇÃO................................................................................................... 1
1.1. DELIMITAÇÃO DO TEMA .............................................................................. 1
1.2. MOTIVAÇÃO PARA A ESCOLHA DO TEMA........................................................ 6
1.3. APRESENTAÇÃO DO PROBLEMA E DOS SEUS PONTOS CHAVE ........................... 7
1.4. QUESTÕES FUNDAMENTAIS ......................................................................... 9
1.5. OBJECTIVOS ............................................................................................ 12
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS...................................... 15
2.1. CARACTERÍSTICAS DE UMA BIBLIOTECA DIGITAL ......................................... 16
2.2. A PRESERVAÇÃO DOS RECURSOS E A GESTÃO DAS BIBLIOTECAS DIGITAIS .... 17
2.2.1. Alguns aspectos tecnológicos básicos das bibliotecas digitais..................... 17
2.2.2. A tecnologia do acesso ....................................................................... 19
3. QUADRO TEÓRICO DE REFERÊNCIA................................................................... 23
3.1. A PRESERVAÇÃO DA MEMÓRIA DOS POVOS ................................................. 23
3.2. O PAPEL DAS INSTITUIÇÕES PATRIMONIAIS ................................................ 26
3.2.1. Os recursos digitais e o depósito legal ................................................... 28
3.2.2. Modo de aquisição dos recursos ............................................................ 30
3.3. CARACTERIZAÇÃO DO AMBIENTE TECNOLÓGICO .......................................... 32
3.3.1. Características dos recursos ................................................................. 32
3.3.2. Características dos suportes de armazenamento dos recursos ................... 33
3.3.3. Obsolência dos dispositivos de leitura .................................................... 37
vii
3.4. CICLO DE VIDA DOS RECURSOS DIGITAIS................................................... 37
3.4.1. Criação dos recursos........................................................................... 37
3.4.2. Selecção dos recursos ......................................................................... 38
3.4.3. Identificação persistente dos recursos ................................................... 40
3.4.4. Descrição e acesso dos recursos ........................................................... 42
3.4.5. Armazenamento dos recursos .............................................................. 42
3.4.6. Preservação de longo prazo e recuperação da informação ........................ 43
3.5. INTEGRIDADE, AUTENTICIDADE E AUTENTICAÇÃO DE RECURSOS DIGITAIS .... 44
3.5.1. Integridade ....................................................................................... 44
3.5.2. Autenticidade..................................................................................... 46
3.5.3. Autenticação...................................................................................... 49
3.6. ESTRATÉGIAS DE PRESERVAÇÃO DIGITAL ................................................... 54
3.6.1. Preservação tecnológica e impressão em papel ....................................... 55
3.6.3. Emulação .......................................................................................... 56
3.6.4. Migração ........................................................................................... 57
3.6.5. Encapsulação ..................................................................................... 59
3.6.6. Software Máquina Virtual (UVC - Universal Virtual Computer) ................... 59
3.6.7. XML (Extensible Markup Language)....................................................... 60
3.7. METADADOS DE PRESERVAÇÃO DE LONGO PRAZO ....................................... 62
3.7.1. Comunidades temáticas e respectivas necessidades de metadados ............ 65
3.7.2. Sistemas de metadados aplicáveis à preservação digital........................... 67
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL.............. 71
4.1. CONFIABILIDADE DE UM REPOSITÓRIO DIGITAL .......................................... 71
4.1.1. As questões legais .............................................................................. 72
4.1.2. As questões financeiras ....................................................................... 73
4.1.3. A gestão do risco................................................................................ 75
4.1.4. As garantias de acesso continuado aos recursos digitais........................... 78
4.1.5. O Modelo de referência OAIS ............................................................... 80
viii
4.2. AS GRANDES OPÇÕES DE PRESERVAÇÃO..................................................... 88
4.2.1. Internet Archive ................................................................................. 88
4.2.2. NEDLIB - Networked European Deposit Library ....................................... 89
4.2.3. CEDARS (CURL Exemplars in Digital Archives) ........................................ 92
4.2.4. PANDORA (Preserving and Accessing Networked Documentary Resources of
Australia) .......................................................................................... 94
4.2.5. OCLC/RLG Working Group on Preservation Metadata................................ 95
4.2.6. FEDORA (Flexible Extensible Digital Object and Repository
Architecture) .................................................................................... 97
4.3. A MOTIVAÇÃO PARA A UTILIZAÇÂO DO MODELO DE REFERÊNCIA OAIS ........... 98
4.3.1. Os interesses das potenciais comunidades utilizadoras ............................. 98
4.3.2. Simulação de uma matriz de metadados de preservação ........................ 125
4.4. OS REPOSITÓRIOS DIGITAIS E A DESCOBERTA E CAPTURA DE METADADOS .. 126
4.4.1. O OAI-PMH (Open Archives Inititative Protocol for Metadata Harvesting) .. 126
4.4.2. O exemplo do serviço de acesso do Projecto FEDORA............................. 127
4.5. BOAS PRÁTICAS DE PRESERVAÇÃO RECOMENDADAS NA IMPLEMENTAÇÃO DE UM
REPOSITÓRIO DIGITAL ........................................................................... 128
5. CONCLUSÃO ................................................................................................ 133
BIBLIOGRAFIA ................................................................................................. 139
ANEXO 1 – SIMULAÇÃO DE MATRIZ DE METADADOS DE PRESERVAÇÃO
ANEXO 2 – GLOSSÁRIO
ANEXO 3 – SIGLAS E ACRÓNIMOS
ANEXO 4 – SÍTIOS RECOMENDADOS NA ÁREA DA PRESERVAÇÃO DIGITAL
ix
1. INTRODUÇÃO
1. INTRODUÇÃO
1.1. DELIMITAÇÃO DO TEMA
Em 1986 J. M. Dureau e D. W. G. Clements1 no âmbito da IFLA (International Federation of
Library Association) definiam a preservação de espécies bibliográficas como :
“Preservação engloba todos os aspectos financeiros e de gestão incluindo a
armazenagem em todos os seus aspectos, questões de pessoal, política,
técnicas e métodos envolvidos na preservação das espécies bibliográficas e
a informação que elas contenham”
Nesta definição apontam-se dois grandes objectivos, sendo um a preservação do conteúdo
intelectual da informação, transferindo-o de um para outro suporte, p. ex. papel para microfilme e o outro a preservação da integridade física original da espécie bibliográfica tão
intacta e utilizável quanto possível.
Como nem todas as bibliotecas ou arquivos teriam condições nem manifesto interesse para
assegurar a integridade física de todas as espécies que possuíam, deveria ser estabelecida,
no âmbito da gestão de colecções, uma política de prioridades.
Estes conceitos, mantêm actualidade para documentos que não são exclusivamente livros
e manuscritos mas também filmes, fotografias, gravuras, mapas, registos de som e imagem, etc.
Em Portugal, Luísa Cabral (1998)2 manifesta a sua preocupação ao constatar que no virar
do século XX as bibliotecas e arquivos portugueses ainda não encararam com conhecimento de causa e seriedade a extensão do problema que têm em mãos, dado que o estado das
colecções nunca foi diagnosticado.
Não existem, de facto, práticas instaladas de gestão das colecções onde se insira a selecção dos documentos a preservar, uns pela simples transmissão do conteúdo intelectual,
DUREAU, J. M., CLEMENTS, D. W. G. (1992) - Princípios para a preservação e conservação de espécies bibliográficas. – Edição em língua portuguesa por Maria da Conceição Casanova, Maria Fernanda Casaca Ferreira, Maria Luísa Macedo. Lisboa : Biblioteca Nacional.
2
CABRAL, Maria Luísa (1998) – Microfilmagem e digitalização : a coexistência pacífica. Páginas a & b,
2, p. 41-52
1
1
1. INTRODUÇÃO
outros ainda acrescentando o valor do artefacto, e outros unicamente pelo valor do artefacto.
No que diz respeito aos recursos digitais, não obstante as enormes barreiras a ultrapassar,
particularmente nos campos económico e financeiro devido aos custos altos que acarreta,
preservar e facilitar o acesso aos recursos electrónicos a longo prazo tornou-se um objectivo que deve ser inscrito no plano de gestão de colecções das bibliotecas digitais, para que
a persistência a longo prazo do acesso aos recursos possa ser efectivamente gerida e monitorizada. É que, no domínio digital e ao contrário do recurso em papel, a informação e o
seu suporte são muito mais perecíveis e voláteis.
Em ambiente arquivístico propriamente dito estes factores são normalmente objecto de
legislação específica para evitar a perda irremediável de informação.
A criação e desenvolvimento de uma colecção, digital ou tradicional deve, por conseguinte,
submeter-se a alguns parâmetros, tais como :
1) Missão da instituição e da biblioteca detentoras dos recursos
2) Estratégia e política de desenvolvimento das colecções
3) Caracterização da própria colecção articulando as necessidades de potenciais utilizadores com os limites temáticos e também com compromissos em termos de cooperação com outras instituições e bibliotecas.
É indispensável a existência de um documento escrito que explicite a política de desenvolvimento das colecções e dele devem constar:
1) Uma introdução com enquadramento e âmbito da política de desenvolvimento
2) As missões da instituição e da biblioteca e o resumo das necessidades e
prioridades
3) Parâmetros das colecções: grupos de utilizadores, programas e requisitos, limites genéricos dos temas, inclusões e exclusões em termos gerais,
compromissos de cooperação, etc.
A estes pontos devem ser acrescentados outros relacionados com necessidades de preservação a fim de obviar a perdas irrecuperáveis.
É o caso da selecção, ponto fulcral no ciclo de vida dos recursos digitais a preservar, que
deve estar inscrita no âmbito da gestão de colecções.
2
1. INTRODUÇÃO
Infelizmente não existem ainda ferramentas electrónicas de selecção que possam substituir
o elemento humano de forma eficaz durante esta fase. O lado positivo da questão é que o
desempenho humano vem acrescentar qualidade e consistência à decisão sobre as colecções a preservar.
Atendendo à orientação do trabalho que nos propomos apresentar, deixando de lado os
aspectos da preservação dos documentos com suporte físico, é necessário atingir e ultrapassar uma nova meta com base em aspectos tecnológicos, dadas as especificidades dos
documentos enquanto unicamente digitais. As tecnologias introduzem factores de mudança
na arquitectura dos recursos digitais com repercussões ao nível dos serviços a desenvolver,
tais como a pesquisa, a recuperação ou a preservação dos recursos.
Surgem dificuldades de preservação que podemos considerar diferentes e novas, que dizem respeito ao ambiente de mudança permanente, à obsolência tecnológica, à vulnerabilidade do ambiente digital, etc.
Os factores mais preocupantes da era digital, que assustam pelos riscos que acarretam
são:
1) A natureza efémera dos recursos digitais
a) Efémera para os suportes de armazenamento
Discos, bandas, etc, cujos formatos podem ser substituídos e se tornam obsoletos (caso, p. ex., das disketes de 5 ¼” substituídas pelas de 3,5” ainda há
relativamente poucos anos). A deterioração dos suportes pode também constituir um alto factor de risco se a exposição ao calor, humidade, calamidades ou
actos terroristas, não for acautelada.
b) Efémera para as tecnologias de armazenamento
- Sistemas operativos e software que aparecem com novas versões em espaços de tempo muito curtos dando origem a ambientes hostis, onde os recursos
deixam de ser reconhecidos à medida que envelhecem;
- Para os formatos dos ficheiros ou esquemas de compressão com base em
sistemas proprietários.
c) Efémera devido ao fraco envolvimento institucional e à ausência de políticas e procedimentos de preservação definidas para o efeito.
3
1. INTRODUÇÃO
2) A dependência da tecnologia
É impossível ter acesso a recursos digitais sem assegurar a existência de sistemas de hardware e software compatíveis pois ao contrário do documento impresso, o documento
electrónico para ser lido necessita de apoio tecnológico.
A combinação destes factores torna impossível a sobrevivência dos recursos digitais sem
uma atenção constante. Um texto digital não pode ser deixado ao abandono durante anos
e voltar a ser lido sem intervenção humana.
Os meios de edição e impressão estão relativamente normalizados à escala internacional.
Um físico na Finlândia e um poeta em Portugal esperam que a sua produção científico/cultural mantenha a sua integridade no essencial. Já o ambiente digital proporciona variantes dos recursos digitais e encoraja grupos diferentes a prosseguir diversos objectivos
e normas. Acrescente-se ainda vários tipos de recursos e vários tipos de hardware e
software que as diversas disciplinas podem produzir e para os quais se espera que sejam
preservados.
Todas as variáveis devem, pois, ser equacionadas face à mudança tecnológica:
a) A rapidez da mudança é uma característica das tecnologias da informação digital. Esta rapidez significa que todos os passos dados na busca da
estabilidade e permanência estão também em risco de se tornarem obsoletos, até mesmo antes de serem adoptados.
b) Os regimes de propriedade intelectual encorajam privatizações de vários
tipos, incluindo a restrição do acesso à informação, p. ex., através da criação de sistemas proprietários que permitem encriptar e esconder a informação a utilizadores que não estão autorizados a aceder ao sistema, até
que a informação perca o seu valor comercial.
c) A quantidade de trabalho criado na forma digital ameaça ultrapassar as
nossas práticas tradicionais de gestão.
d) O conjunto dos factores já apresentados ameaça atingir custos de gestão imprevisíveis.
e) Finalmente, a efemeridade da natureza dos meios de armazenamento e
transmissão impõe a maior urgência na tomada de medidas.
Contra esta lista de tendências impõe-se uma enorme expectativa. Existem padrões comportamentais na comunidade das bibliotecas e também na editorial no que diz respeito à
4
1. INTRODUÇÃO
preservação, permanência, e difusão. Estes valores emergem com grande vitalidade perante os riscos envolvidos na instabilidade do ambiente digital.
Face aos novos desafios colocados pela Internet que, de igual modo, facilitam os acessos e
os contactos entre instituições congéneres, é fundamental ou mesmo condição de sobrevivência pensar em termos de cooperação entre arquivos, bibliotecas, museus, grandes editores, produtores de informação em geral, criadores de software, etc. Os altos custos a ultrapassar, por um lado, e a distribuição generalizada dos recursos em redes, por outro,
facilitam a emergência de parcerias. A título de exemplo podemos referir a utilização do
modelo de referência OAIS (Open Archive Information System) criado sob os auspícios da
NASA (National Aeronautics and Space Administration) pelo CCSDS (NASA Consultative
Committee for Space Data Systems) que será desenvolvido em detalhe no ponto 4.1.5. Os
projectos de preservação digital CEDARS (Curl Exemplars in Digital Archives Project),
PANDORA (Preserving and Accessing Networked DOcumentary Resources of Australia) e
NEDLIB (Networked European Deposit Library) adoptaram este modelo de referência e podemos considerá-los verdadeiras instituições virtuais de partilha de recursos, tanto no
campo tecnológico como na gestão do conhecimento.
Para fazer face aos elevados custos da preservação deve, portanto, pré-existir discussão e
consenso ao mais alto nível das instituições que pretendam levar a cabo a criação de repositórios digitais. Entenda-se aqui por repositórios digitais, arquivos ou bibliotecas digitais
que decidiram manter e preservar os próprios recursos ou ainda com a capacidade de armazenar recursos alheios, acessíveis ou não a utilizadores externos.
Os resultados dos projectos implementados devem estar documentados de forma transparente e ser amplamente divulgados. No seguimento de trabalho pluridisciplinar devem surgir linhas orientadoras de selecção de recursos. A título de exemplo, podemos referir-nos
às linhas orientadoras da Biblioteca Nacional do Canadá e também da Biblioteca Nacional
da Austrália.
Durante a selecção dever-se-á verificar se os recursos digitais a preservar são cópias de
documentos com existência física ou nascidos digitais. A sua forma original poderá influenciar as opções de selecção para preservação, tendendo a deixar para um segundo plano,
as cópias de documentos com existência física que não estão em risco de desaparecimento
ou não têm valor acrescentado pelo suporte físico. Os recursos nascidos digitais ao serem
sujeitos ao crivo da selecção, terão à partida o seu suporte electrónico como alerta para
um possível desaparecimento.
5
1. INTRODUÇÃO
No decurso deste trabalho vamos procurar:
1. Abordar a perspectiva da criação de bibliotecas digitais e das opções de gestão da
preservação, assumidas com vista a prevenir o desaparecimento dos recursos a longo
prazo.
2. No âmbito do quadro teórico de referência, fazer o ponto da situação da preservação
digital a nível mundial.
3. Discutir as estratégias a implementar com vista a ultrapassar os problemas da obsolência tecnológica.
4. Ir ao encontro das boas práticas utilizadas e dos sistemas de metadados de uso mais
corrente utilizando, como metodologia, o benchmarking. Os projectos seleccionados
para comparação são o CEDARS, o PANDORA, o NEDLIB e o OCLC/RLG-WG.
5. Simular uma matriz de metadados adaptada a uma determinada comunidade de
utilizadores.
6. Enumerar as boas práticas conducentes à eficaz implementação de um repositório
digital confiável.
1.2. MOTIVAÇÃO PARA A ESCOLHA DO TEMA
A motivação para a escolha do tema e do problema desta dissertação surge da experiência
do exercício profissional de bibliotecária. A conservação e preservação de documentos é
uma disciplina querida dos profissionais da documentação em geral, bibliotecários ou arquivistas e alicerça-se em épocas distantes, com muitos séculos de permeio.
Com a emergência das novas tecnologias e a utilização alargada da Internet surgem elementos novos, como a possibilidade de gerar e difundir recursos criados em computador
baseados em múltiplos meios, aos quais chamamos multimedia digital e surge também, a
possibilidade de digitalizar documentos em suporte papel, documentos sonoros, artefactos
museológicos, etc. Estes recursos, uns nascidos digitais, outros cópias de documentos com
existência física, dadas as suas características, possuem enormes potencialidades do ponto
de vista da difusão e acesso à informação e ao conhecimento, mas possuem também alguns factores de alto risco para a sua sobrevivência a longo prazo. Estes serão detalhadamente estudados ao logo desta dissertação.
6
1. INTRODUÇÃO
Diz-nos Fernanda Campos em intervenção no Congresso da BAD (Associação Portuguesa
de Bibliotecários Arquivistas e Documentalistas) de 20013 que:
“Uma das mais importantes qualidades da informação em formato digital
consiste no facto de não ser fixa pela sua própria natureza, ao contrário do
que sucede com os textos impressos. Os textos digitais não são finais nem
finitos nem são fixos, quer na essência quer na forma (...)”
Por um lado, nós, bibliotecários, lidamos com ferramentas electrónicas que aumentam a
capacidade de gerir o conhecimento, de forma a que a difusão da informação se alargue a
um número de utilizadores da vez maior, não só da nossa comunidade mas de comunidades à escala planetária. Por outro, corremos o risco de perder todas as mais valias acrescentadas pelo nosso trabalho, assim como os recursos digitais propriamente ditos devido à
vulnerabilidade do ambiente digital e à obsolência tecnológica.
É o elevado sentido do risco de perda que nos dá a motivação para nos dedicarmos a esta
investigação sobre preservação de recursos digitais a longo prazo.
1.3. APRESENTAÇÃO DO PROBLEMA E DOS SEUS PONTOS CHAVE
O problema que iremos explorar ao longo deste trabalho de tese é muito complexo e diz
respeito à preservação de recursos digitais, nomeadamente quando vista sob a perspectiva
biblioteconómica, isto é, pelo gestor de colecções. Tencionamos abordá-lo pelas seguintes
vertentes:
a) Deterioração e obsolência de hardware e suportes de armazenamento
- Qualquer peça de hardware deteriora-se com o tempo, por vezes até ao
ponto de já não poder voltar a ser usada. Mas é acima de tudo a sua desactualização / obsolência e não a sua deterioração que preocupa os responsáveis pela preservação dos recursos digitais.
- A longevidade dos suportes de armazenamento é outra variável a ter em
conta. A titulo exemplificativo referimos que se estima que a duração de
uma banda magnética seja de 10 a 20 anos4 e que a de um CD-ROM seja
de 50 a 100 anos. Enumeraremos estas referências no ponto 3.3.2 assim
como outras, relativas a outros suportes.
3
4
CAMPOS, Fernanda Maria (2001) – Bibliotecas digitais : uma nova perspectiva de valorização e
acesso ao património cultural. In: Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas. Porto, 2001.
Aschenbrenner, A. (2001) - Long-term preservation of digital material : building an archive do preserve digital cultural heritage from the Internet. Institut für Softwaretechnik und Interaktive Systeme der Technischen Universität Wien
7
1. INTRODUÇÃO
b) Obsolência de software
Preservar o fluxo de bites, não garante que a informação seja preservada. É necessário
software que a leia de forma inteligível. Essas peças de software são desenvolvidas de
modo contínuo por parte dos produtores comerciais de software ou mesmo em instituições
sem fins lucrativos. Assiste-se, por este motivo a uma frenética aparição de produtos novos, ou novas versões, que tomam conta do mercado e obrigam a actualizações no seio
dos próprios repositórios que estão destinados a receber e armazenar recursos a longo
prazo.
c) Boas práticas usadas na criação e manutenção dos recursos digitais
O conceito “boas práticas” é encarado neste trabalho essencialmente como criação de metadados. Em Borbinha (2001)5 encontramos a seguinte definição para metadados:
“informação estruturada sobre ou representativa de um recurso (documento
ou obra em geral)”.
A normalização nesta área do conhecimento tem sido objecto de estudo alargado e este
mesmo trabalho dá-nos uma comparação entre biblioteca tradicional e biblioteca digital
bem como a caracterização dos metadados relacionados. Mais à frente nesta tese abordaremos de modo detalhado o assunto metadados, no entanto podemos desde já acrescentar
que:
A gestão efectiva da preservação digital é facilitada pela criação, manutenção e evolução de metadados de apoio à preservação. Estes podem documentar os processos técnicos associados à preservação, especificar os direitos da gestão da informação e estabelecer a autenticidade dos conteúdos digitais.
Diversas iniciativas foram desenvolvidas no que diz respeito a metadados
para preservação. Estes desenvolvimentos, existem de forma independente e respondem a necessidades particulares de instituições e projectos.
Existem pontos comuns, mas também muitas diferenças. A uns e a outros
nos referiremos ao longo do desenvolvimento do trabalho.
Iniciativas tais como o Dublin Core Metadata Initiative (DCMI) demonstram
o valor do consenso no campo das boas práticas a implementar. Dentro
5
BORBINHA, J. (2001) - Metadata: conceito e sua relevância para as bibliotecas. In : Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, 7º, Porto, 2001.
8
1. INTRODUÇÃO
deste espírito a OCLC/RLG Working Group em metadados de preservação6
(Online Computer Library Center/ Research Libraries Group) foi criada
para iniciar um processo de construção consensual de metadados para
preservação
d) Confiabilidade de um repositório digital
A preservação a longo prazo, em larga escala, capaz de responder às necessidades dos investigadores e académicos do futuro, carece de infra-estruturas profundas, capazes de suportar sistemas distribuídos de repositórios digitais.
Um dos pontos críticos para a criação de infra-estruturas de repositórios digitais é a inexistência de número suficiente de organizações avalizadas, capazes de armazenar, migrar e
assegurar o acesso às colecções digitais.
Neste contexto, um elemento da maior importância será a existência de um processo de
certificação de repositórios digitais que assegure um clima de segurança no que diz respeito ao futuro da preservação digital.
O problema no caso português surge quando :
Instituições que se lançam na criação de bibliotecas digitais estão apenas
parcialmente habilitadas à passar à sua concretização, tanto do ponto de
vista de conhecimentos teóricos como tecnológicos.
A vertente preservacionista é simplesmente ignorada. Ressalvamos o caso
da manutenção e permanência dos recursos, que ao longo do tempo tem
vindo a sensibilizar as instituições e mesmo os particulares.
A preservação de recursos digitais é pois, um assunto que deve ser encarado como sendo
de importância estratégica nacional, sob pena de vermos desaparecer pedaços da nossa
História.
1.4. QUESTÕES FUNDAMENTAIS
Ao longo desta tese tentaremos aprofundar algumas questões por nós consideradas fundamentais.
6
OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital objects: a review of the state of the art: a white paper. http://www.oclc. org/ digitalpreserva-
9
1. INTRODUÇÃO
a) A preservação da memória dos povos
Conscientes que estamos do crescimento acelerado da criação de recursos digitais à escala
planetária e consequente proliferação destes através de redes, tais como, Internet, Intranet, Extranet, etc, e também conscientes da vulnerabilidade do ambiente digital, surgemnos as seguintes questões :
- A produção intelectual dos dias de hoje, nascida digital, estará em dias futuros mais
ou menos longínquos, depositada em repositórios digitais confiáveis e bem protegidos?
Ou desaparecerá, deixando as nações irremediavelmente empobrecidas?
b) A preservação de recursos digitais
Com o surgimento da tecnologia digital muitos criadores produzem directamente em computadores. Alguma dessa informação pode ser impressa, mas a maior parte, com ênfase
em bases de dados, recursos multimedia, informação geográfica, páginas da Internet, etc.,
existe unicamente em formato digital, ainda com a possibilidade da existência simultânea
de formatos diversos no mesmo recurso e de versões diferentes do seu conteúdo. Surgenos de imediato a questão da selectividade.
- Será que toda essa informação é importante para o futuro ?
- Que herança vamos deixar ?
- Quem decide que recursos preservar perante o cenário preocupante da questão anterior ?
- Os responsáveis pelas unidades documentais?
- Os profissionais da informática?
- Os decisores políticos?
c) Sensibilização para a criação de bibliotecas digitais
Uma biblioteca digital é uma colecção de recursos electrónicos de informação proveniente
de uma variedade de fontes, incluindo a Web. Fisicamente, uma biblioteca deste tipo aparece como um sítio Web ou uma compilação de ligações a sítios num ou mais servidores
que podem ser acedidos através da Internet (Kovaks, 2000)7.
Manter uma biblioteca digital é um compromisso entre a gestão da qualidade das colecções
e a administração dos sítios na Web.
7
tion/presmeta_wp.pdf. (acedido em 16.01.2002)
KOVACS, Diane K , ELKORDY, Angela (2000) – Collection development in ciberspace. Library Hi
Tech, 18 (4), p. 335-359.
10
1. INTRODUÇÃO
- Quais os factores que devem ser tidos em consideração pelos intervenientes na criação
de bibliotecas digitais quanto à manutenção dos conteúdos e sua preservação a longo prazo?
d) Estratégias de preservação
A preservação de recursos digitais consiste numa mediação técnica entre o objecto e a informação que veicula (Lupovici, 2001)8. Num contexto tradicional, não digital, a simples
preservação do objecto físico, p. ex., um livro constitui o essencial do trabalho e ao mesmo
tempo são conservados alguns dados (ou metadados) sob a forma de catálogos, onde se
descreve o conteúdo da obra e a sua contextualização.
Temos também o exemplo mais recente de documentos sonoros analógicos para os quais
existe a necessidade de mediação técnica de um aparelho que transforme uma vibração
física em ondas sonoras e para o qual as características técnicas de transformação mudaram com o desaparecimento de materiais substituídos por outros de novas gerações incompatíveis. Neste último caso, a preservação concentra-se no suporte e na obsolência do
material que o constitui. Haverá que transferi-lo para novos suportes compatíveis com os
materiais em uso.
No contexto informático, as soluções existentes passíveis de implementação, migração de
dados ou emulação de máquinas e sistemas operativos, entre outras, incidem ou sobre os
dados ou sobre as tecnologias envolventes. Que estratégias implementar ?
- Preservação tecnológica ?
- Migração ?
- Emulação ?
- Encapsulação ?
- XML ?
e) A necessidade da existência de boas práticas
A existência de boas práticas é uma necessidade imperiosa para atingir a preservação e
recuperação da informação tal qual ela foi produzida.
8
LUPOVICI, Catherine (2001) – Les besoins et les données techniques de préservation. 67th IFLA
Council and General Conference, Boston, 2001
11
1. INTRODUÇÃO
Em ambiente digital os recursos são mutáveis, por este motivo deve ser mantido ao longo
do tempo um historial por forma a garantir as suas qualidades de autenticidade e integridade (Lupovici, 1998)9.
As tecnologias de acesso aos recursos digitais rapidamente se tornam obsoletas e por isso
haverá que encapsular juntamente com o recurso informação acerca do hardware, do sistema operativo e respectivo software usados para o criar.
Os metadados de preservação devem ser usados para:
Armazenar informação técnica sobre decisões e acções de preservação;
Documentar estratégias de conversão de dados;
Registar os efeitos das estratégias de conversão de dados;
Assegurar a autenticidade dos recursos digitais ao longo do tempo;
Registar informação acerca de gestão de colecções e de direitos.
- Com vista à criação de metadados de preservação que sistema escolher ? Haverá um sistema de eleição ?
1.5. OBJECTIVOS
Os recursos digitais em bibliotecas, arquivos e museus vão desde ficheiros de simples texto
até bases de dados de recursos multimedia altamente complexos.
A informação digital é composta por uma crescente parte da nossa herança cultural e intelectual e oferece enormes benefícios aos utilizadores. Ao mesmo tempo, a preservação e o
acesso a esta informação dependem de meios pouco estáveis, da tecnologia, da criação de
metadados na origem e da determinação da autenticidade dos recursos.
Quando uma biblioteca ou um arquivo cria os seus próprios recursos, seja por digitalização
de colecções existentes seja com documentos unicamente digitais, é possível decidir sobre
normas, formatos, controlo de qualidade e metadados associados que vai usar. Quando o
mesmo acontece com recursos capturados através da Internet essa capacidade de controlo
não existe.
Acontece que, por vezes por puro desconhecimento, outras por falta de fundos ou qualquer
outra razão, os organizadores de bibliotecas digitais não têm preocupações preservacionis-
9
LUPOVICI, Catherine (1998) – L’information bibliographique de douments electroniques. Paris, BBF,
43 (4)
12
1. INTRODUÇÃO
tas nem utilizam as chamadas boas práticas oferecidas pela normalização e não integram a
criação de metadados específicos para a preservação dos recursos. O mesmo se verifica no
que diz respeito a normas instituídas para a criação e manutenção dos sítios.
Passado algum tempo, todo o investimento, tanto a nível financeiro como intelectual perde-se, o que dá lugar a frustrações do utilizador final e a empobrecimento do património
cultural e científico.
A preservação dos recursos digitais é, por conseguinte, uma missão que deve ser considerada estratégica pelos estados e por isso endossada, na sua parte fundamental às instituições patrimoniais: bibliotecas nacionais, arquivos nacionais ou grandes bibliotecas académicas. Estes devem ser apetrechados de todos os meios, humanos, tecnológicos e financeiros para fazer face à complexidade dos problemas que decorrem da própria natureza
dos recursos e do meio ambiente digital.
A instabilidade do ambiente da Internet obriga a uma constante presença do elemento
humano. Damos os exemplos, entre outros, da criação de ferramentas de indexação, pesquisa e captura em larga escala, que percorrem e perscrutam a Internet sem cessar descobrindo recursos que vão de encontro às necessidades de selecção ou ainda ferramentas
que lhes associam metadados. No caso da preservação digital de longo prazo, serão metadados específicos para preservação.
Os recursos digitais tornam-se ilegíveis e inacessíveis se os mecanismos de leitura necessários se tornarem obsoletos. A fragilidade física dos suportes, a obsolência tecnológica e a
plasticidade do meio ambiente digital são obstáculos a ultrapassar na preservação digital
de longo prazo.
Consideramos como preservação digital de longo prazo, o armazenamento, a manutenção
e o acesso continuado aos recursos digitais, usualmente consequência da aplicação de uma
ou mais estratégias de preservação digital incluindo migração de dados ou emulação
tecnológica (Russel & Sergeant, 1999)10.
Adoptámos a definição de repositório digital confiável como aquele cuja missão é assegurar
o acesso continuado aos recursos digitais de forma persistente e estável a uma designada
comunidade agora e no futuro (RLG-OCLC, 2002) 11.
No seguimento dos pressupostos enunciados passamos a apresentar os nossos objectivos
para esta tese :
10
11
RUSSEL,Kelly & SERGEANT,Derek (1999) - The Cedars project : implementing a model for distributed digital archives. RLG DigiNews, 3 (3).
RLG-OCLC (2002) – Trusted digital repositories : attributes and responsibilities. Mountain View:
Research Libraries Group.
13
1. INTRODUÇÃO
1) Estudar os conceitos teóricos da preservação digital.
2) Verificar o “estado da arte” a nível mundial, incluindo no nosso país, em matéria
de preservação de recursos digitais a longo prazo.
3) Comparar as melhores práticas utilizadas pelos projectos mais importantes na
área da preservação digital.
4) Apresentar linhas orientadoras para o ciclo de vida dos recursos digitais, baseadas
em projectos existentes, de apoio às instituições que manifestam intenções de
criação de repositórios digitais confiáveis.
5) Contribuir, ao longo de todo o trabalho, para dar pistas e alertar a consciência daqueles que, no nosso país, a nível institucional, têm o poder decisório sobre a criação e organização de bibliotecas ou repositórios digitais.
14
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
“As bibliotecas digitais devem permitir o acesso a todo o conhecimento humano por parte de qualquer cidadão, em qualquer hora e em qualquer lugar, num ambiente amigável, multi-modal, eficiente e efectivo ultrapassando as barreiras da distância, da língua e da cultura através de dispositivos
ligados à Internet”
DELOS Brainstorming Report, San Cassiano, Itália, 2001
As bibliotecas digitais e as suas infraestruturas tecnológicas encontram-se em rápido amadurecimento. Do ponto de vista da preservação digital, é na fase do estudo das opções de
criação das infraestruturas que deve ser decidido quais os recursos a preservar e durante
quanto tempo.
O acesso e a preservação sempre mantiveram uma forte interacção, sendo objectivo primeiro da preservação da informação o de a tornar acessível a futuras gerações (Jones &
Beagrie, 2001)12.
Partindo deste pressuposto e no que diz respeito a recursos digitais, as decisões quanto à
preservação e acesso devem ser tomadas, de preferência, em simultâneo. São contudo
distintas pois a preservação do acesso aos recursos requer uma atenção mais activa na
gestão do seu ciclo de vida (vide 3.4).
Existem motivos para a separação de cópias para o acesso e para a preservação no que diz
respeito a aspectos tecnológicos, funcionais e legais, tendo em vista as fases de armazenamento e segurança, da escolha de suportes e da abordagem do problema da escalabilidade.
12
JONES, Maggie & BEAGRIE, Neil (2001) – Preservation management of digital materials : a handbook. London, The British library
15
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
2.1. CARACTERÍSTICAS DE UMA BIBLIOTECA DIGITAL
Ao analisarmos a citação que introduzimos no início do capítulo verificamos que os objectivos de uma biblioteca digital estão muito bem definidos.
Podemos referir-nos a estruturas de bibliotecas digitais criadas à luz das bibliotecas convencionais, de museus digitais, de arquivos digitais, também espelhados nos modelos tradicionais e também a repositórios digitais, que podem armazenar qualquer tipo de recurso
digital e que cumpre da mesma maneira as funções de divulgação e acesso por um período
de tempo que se pretende longo.
Apresentamos algumas orientações que definem uma biblioteca digital quanto aos seus
objectivos13, propósitos e tempo de vida:
1. Os objectivos são a oferta de serviços integrados que permitem ter acesso a recursos
em colecções culturais ou científicas, por vezes indo ao encontro dos sistemas tradicionais na sua essência, outras vezes, em estruturas totalmente novas aproveitando as
potencialidades do ambiente tecnológico. A funcionalidade dos serviços integrados assenta nos seguintes pressupostos :
Necessidades de informação de grande qualidade
Informação relacionada em fontes diversas e dispersas
Informação heterogénea
Fontes de informação ricas e fiáveis
Informação multimédia
Comunidade de utilizadores definida
Utilizadores motivados
Orientação por domínios do conhecimento
Acessos em línguas variadas
Colaboração / Cooperação
13
DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) - DELOS
Brainstorming Report. San Cassiano, 2001. ERCIM-02-W02
16
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
2. Quanto aos propósitos, é possível referir que as bibliotecas digitais são procuradas
sobretudo para investigação e aprendizagem.
3. O tempo de vida aponta para que as bibliotecas digitais possam fornecer acesso a informação preservada por períodos de tempo mais ou menos longos, consoante as necessidades das comunidades de utilizadores.
2.2. A PRESERVAÇÃO DOS RECURSOS E A GESTÃO DAS BIBLIOTECAS DIGITAIS
No que diz respeito à preservação de longo prazo convém referirmos as boas práticas que
determinam o tempo de vida e a confiabilidade dos sistemas e dos recursos, sem os quais
qualquer biblioteca digital, seja ela repositório ou simples espaço de comunicação e de divulgação da informação perdem as suas potencialidades de referência aos olhos das suas
comunidades de utilizadores e que são :
1) As estratégias de preservação
Falamos aqui de tomadas de decisão sobre o tipo de conversão de dados que a biblioteca
vai prosseguir e da sua posterior descrição e documentação. A história da mudança ao longo do tempo deve estar totalmente documentada através de metadados.
Dado que as tecnologias evoluem e a obsolência vive em permanência no horizonte, devem ser desenvolvidas técnicas que automaticamente ou em parte migrem os conteúdos e
os processos de uma biblioteca digital para os novos ambientes tecnológicos. Este passo
deve ser dado de forma transparente para as comunidades de utilizadores, obviando à
privação do acesso sempre que possível.
2) As técnicas de reparabilidade que dão suporte à autenticidade dos recursos
Sempre que se procede a qualquer estratégia de conversão de dados, existe perda de informação. Para que seja possível reconstruir ficheiros e evitar perdas muito graves são utilizados mecanismos de reparabilidade que podem ser conseguidos através de chaves de
autenticação, check-sums, digests (cf. Anexo 3 – Glossário), etc.
2.2.1. Alguns aspectos tecnológicos básicos das bibliotecas digitais
Seguindo ainda o relatório DELOS (2001)14 existem alguns componentes das bibliotecas
digitais, do âmbito da gestão de sistemas, que são considerados pontos chave para trabalho de investigação na próxima década e do nosso ponto de vista destacamos aqueles que
são indispensáveis à saudável preservação dos recursos ao longo do tempo:
14
DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) – Op. cit.
17
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
1) Sistemas de arquitectura básicos
A arquitectura cliente-servidor baseada na dependência de computadores dedicados ao
serviço de outros computadores e de três camadas deixou de ser adequada e deve ser
substituída por arquitecturas de orientação a objectos ou de múltiplas camadas.
2) Sistemas abertos
Uma arquitectura aberta obriga a que todas as funcionalidades da biblioteca digital estejam
compartimentadas em sistemas muito bem definidos e prevê o desenvolvimento de linhas
de investigação nas áreas da flexibilidade dos módulos de plug-and-play15 ou seja a capacidade que um sistema informático tem de automaticamente configurar mecanismos de
expansão a novos serviços e dispositivos. Deve ser possível acrescentar funcionalidades
sem recorrer a mais elementos de configuração ou à utilização de dip-switches ou jumpers.
3) Interoperabilidade e metadados
A interoperabilidade é um dos requisitos mais importante do sistema e apesar do trabalho
árduo
existente
nesta
área
deveria
ser
desenvolvido
estudo
suplementar
sobre
mapeamento de formatos de dados e esquemas de metadados e também de ferramentas
de conversão de dados. Estas deveriam ser colocadas em acesso aberto a todas as
bibliotecas digitais um pouco à semelhança da conversão entre formatos MARC que as
bibliotecas desenvolveram para permitir o reconhecimento e a troca de dados entre
sistemas automatizados.
4) Escalabilidade
Dada a propensão para o crescimento desmesurado de qualquer biblioteca digital, a escalabilidade deve ser considerada tanto no que diz respeito aos conteúdos, como aos componentes do sistema, como à quantidade de utilizadores, o que requer arquitecturas descentralizadas. Estas podem ser, entre outras, do tipo peer-to-peer16, tipo de rede em que cada
estação de trabalho tem capacidades e responsabilidades equivalentes, diferindo de uma
arquitectura de cliente-servidor na qual existem computadores que estão dedicados ao
serviço de outros computadores, ou GRID17 onde ao contrário das redes convencionais que
têm o seu ponto fulcral nas comunicações entre dispositivos, esta, aproveita os ciclos de
não processamento de todos os computadores na rede para resolver problemas de exces-
15
16
17
http://www.webopedia.com/TERM/p/plug_and_play.html
http://www.webopedia.com/TERM/p/peer_to_peer_architecture.html
http://www.webopedia.com/TERM/g/grid_computing.html
18
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
siva morosidade para máquinas stand-alone, isto é, para máquinas que não se intercomunicam com outras máquinas18.
5) Segurança
Podemos considerar a segurança como um ponto crítico na manutenção de bibliotecas digitais especialmente ao nível da integridade dos conteúdos, da confidencialidade e dos direitos de propriedade intelectual.
Qualquer destes pontos irá ser desenvolvido ao longo deste trabalho.
2.2.2. A tecnologia do acesso
Existem alguns aspectos tecnológicos da maior importância no que diz respeito ao paradigma de acesso integrado a bibliotecas digitais. Estes estão relacionados com a variedade
de sistemas de dados em operação conjunta que vão desde bases de dados relacionais a
documentos não estruturados ou baseados em multimedia.
Correntemente, a forma mais utilizada de descobrir recursos em bibliotecas digitais é através dos catálogos bibliográficos das colecções acessíveis em linha, vulgarmente conhecidos
como OPACs (Online Public Access Catalog), das instituições detentoras de conteúdos ou de
bases de dados nacionais ou ainda através dos motores de busca mais comuns, isto se estes possuírem boas ferramentas de indexação automática.
No caso, p. ex. da Biblioteca Nacional da Austrália, o utilizador tem acesso aos títulos dos
recursos electrónicos depositados, tanto através do OPAC como da base de dados de bibliografia nacional. Também é possível aceder aos títulos dos recursos electrónicos depositados através da página do projecto PANDORA19 (Phillips, 2001)20.
Existe, portanto, uma aproximação de estratégias de acesso para os recursos tradicionais e
para os recursos electrónicos o que significa uma mais-valia para a comunidade de utilizadores que acede de forma integrada à informação, independentemente do suporte em que
a mesma se encontra.
Em contexto pan-europeu, o projecto TEL – The European Library Project21 é um sistema
cooperativo de partilha de recursos constituído por 10 bibliotecas nacionais europeias que
têm como objectivo desenvolver um sistema de acesso às colecções de que são proprietárias. A British Library lidera o projecto e os outros parceiros participantes são: a Biblioteca
18
19
20
21
http://www.webopedia.com/TERM/s/stand_alone.html
http://pandora.nla.gov.au/index.html/archive.html
PHILIPS, Margaret E. (2001) - Ensuring long-term access to online publications. Journal of Electronic Publishing, 4 (4)
http://www.europeanlibrary.org
19
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
Nacional de Portugal (BN), a Biblioteca Nacional de Itália (BNCF), a Conferência de bibliotecas nacionais europeias (CENL), a Biblioteca Alemã (DDB), a Biblioteca Nacional da Finlândia (HUL), o Instituto Central do Catálogo Único, Itália (ICCU), a Biblioteca Nacional da
Holanda (KB), a Biblioteca Nacional da Eslovénia (NUK) e a Biblioteca Nacional Suíça
(SNL).
Este projecto pretende desenvolver um conjunto de boas práticas que agrupa em seis módulos:
a) Relações com as editoras
As negociações com as principais editoras devem ser estabelecidas em parceria
tendo em vista aspectos técnicos, financeiros, de licenciamento e de direitos de
autor. Também se pretende estabelecer alguma normalização no que diz respeito
ao depósito legal e às condições de depósito de longo prazo.
b) Planos de negócio
Este módulo pretende incluir estudos de mercado assim como cenários para eventuais modelos de custos.
c) Metadados
O projecto TEL tem em vista desenvolver protocolos e modelos de dados que incluem a normalização de metadados descritivos, estruturais, técnicos, de preservação, de direitos, ou ainda outros, de acordo com esquemas para recursos digitais ou não, utilizados pelos parceiros envolvidos22.
d) Interoperabilidade
Os parceiros seleccionam um ou mais serviços bibliográficos que contenham informação acerca das suas colecções, digitais ou impressas. Estas destinam-se a
ser testadas através de Z39.50 ou XML (cf. Anexo 3 – Glossário). O grupo de trabalho deverá procurar as melhores soluções de interoperabilidade.
22
No capítulo 3 deste trabalho iremos encontrar desenvolvidos aspectos relativos aos metadados de
preservação.
20
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
e) Disseminação e acesso ao projecto
O plano de disseminação e acesso encontra-se definido desde o início e pretende
operacionalizar o relacionamento entre as diferentes bibliotecas participantes assim como organizar os eventos necessários à divulgação de resultados.
f) Gestão do projecto
A gestão do projecto pretende coordenar e supervisionar os prazos e a qualidade
dos deliverables, assim como os aspectos financeiros.
O papel a desenvolver pelas bibliotecas digitais no que diz respeito à preservação dos recursos deve manter os mesmos padrões de exigência sempre defendidos para os recursos
em suporte tradicional, assim como promover o desenvolvimento de novas competências
do pessoal envolvido.
As bibliotecas devem desenvolver políticas, procedimentos e infraestruturas adequadas a
colecções de diversos tipos de recursos digitais e integrá-los em sistemas de descrição, catalogação, acesso e preservação, ao mesmo tempo que devem considerar a possibilidade
de partilhar tecnologias e experiências, reduzindo esforços e custos.
21
2. BIBLIOTECAS DIGITAIS E PRESERVAÇÃO DE RECURSOS
22
3. QUADRO TEÓRICO DE REFERÊNCIA
3. QUADRO TEÓRICO DE REFERÊNCIA
3.1. A PRESERVAÇÃO DA MEMÓRIA DOS POVOS
A preocupação com o problema da preservação e conservação de colecções de documentos
é tão antiga como a sua existência.
Preservar a memória é preservar a identidade cultural; é ligar passado e presente e dessa
forma preparar o futuro. Ora, precisamente, é nas bibliotecas e nos arquivos que podemos
encontrar uma grande parte dessa memória.
Tradicionalmente, a História liga a biblioteca à preservação de textos. Na Idade Média as
bibliotecas monásticas desenvolviam um trabalho de cópia. Os bibliotecários coevos tinham
consciência da necessidade de transmitir à posteridade os verdadeiros tesouros que possuíam, assim como todo o conhecimento contido nesses artefactos. A técnica de cópia era a
única possível para assegurar a preservação e o acesso aos textos.
Com o advento da imprensa de caracteres móveis em meados do século XV, as bibliotecas
constituem-se em torno de colecções de livros impressos, depois publicações periódicas,
literatura cinzenta, etc. No início do Séc. XXI, as colecções das bibliotecas são ainda maioritariamente texto e papel, algumas devidamente preservadas, outras condenadas a existência mais efémera.
Fazer face às diferentes missões de preservação das colecções contidas em bibliotecas
constituiu até há bem pouco tempo a principal preocupação do bibliotecário, pelo menos o
das bibliotecas patrimoniais.
Todos os anos, documentos preciosos, verdadeiros tesouros património da humanidade
desaparecem devido a causas naturais que vão desde a simples negligência humana a catástrofes naturais. A guerra e os actos de terrorismo são, da mesma maneira constantes
ameaças para a nossa herança colectiva.
23
3. QUADRO TEÓRICO DE REFERÊNCIA
Abdelaziz Abid em “Memory of the World – preserving our documentary heritage”23 descreve as linhas de orientação do programa “Memory of the World” da responsabilidade da
UNESCO iniciado em 1992 com o objectivo de salvaguardar documentação histórica e ao
mesmo tempo democratizar o seu acesso assim como divulgar produtos que possam ser
criados a partir desses documentos.
Em relatório que o mesmo responsável prefacia (Hoeven & Joava, 1996)24 afirma-se, sem
pretender fazer um monumento funerário, que mais de 100 bibliotecas e colecções foram
destruídas, por motivos alheios à vontade do homem, ao longo do Séc. XX. É um facto
verdadeiramente preocupante dado que o vazio ocupou o espaço da memória e as comunidades empobreceram.
Esta situação é relativa às bibliotecas tradicionais. Quanto às emergentes bibliotecas digitais, são também elas agora objecto de preocupação pela necessidade da sua preservação.
O propósito da preservação digital a longo prazo, pode ser estabelecido segundo Beagrie e
Greenstein em 199825 como uma questão que começa quando o impacto da mudança tecnológica necessita de ser encarado de forma sucessiva indefinidamente no tempo e acrescentamos, seguindo o pensamento de Seamus Ross (2000)26 quando começa a haver uma
crescente dependência da informação digital.
Esta dependência, por si só contém alguns efeitos comportamentais de mudança tanto do
ponto de vista tecnológico como sociológico, tais como:
A forma de documentar e armazenar factos históricos e culturais está a
mudar, dado que, já não existe obrigatoriamente uma relação directa entre a forma de armazenamento físico, a estrutura lógica da representação
no armazenamento e a sua interpretação.
A nossa cultura propriamente dita está a mudar. A Internet criou um ambiente no qual novas comunidades e grupos sociais podem existir e evoluir. Ao mesmo tempo emergem protocolos e formas de relacionamento que
regem as interacções sociais virtuais.
23
ABID, Abdelaziz (1998) – Memory of the World Preserving our documentary heritage. In : IFLA
General Conference, 64, Amsterdam.
24
HOEVEN, Hans van der & ALBADA, Joan van (1996) - Lost memory : libraries and archives destroyed in the Twentieth Century. Paris, UNESCO, 70 p.
25
BEAGRIE, Neil & GREENSTEIN, Daniel (1998) – A strategic policy for creating and preserving digital
collections : a report do the Digital Archiving Working Group. British Library Research and Innovation Report N. 167.
26
ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholarship. London, National Preservation Office.
24
3. QUADRO TEÓRICO DE REFERÊNCIA
Parece ser evidente que os alvos de interesse de preservação estão relacionados com aspectos probatórios, reutilização académica ou comercial ou ainda valor histórico de instituições ou memória nacional, p. ex., os emails de personalidades públicas, etc.
Em Portugal, e segundo o relatório TEL (The European Library) (J. Stapel 2001)27, as preocupações são de facto do mesmo teor porque verificamos que estão seleccionados à partida para preservação, documentos oficiais, teses e dissertações, publicações periódicas
electrónicas no domínio .pt e documentos em outros domínios que tenham manifesto interesse cultural e histórico para o nosso país.
Tradicionalmente, para reconstruir o passado, os historiadores recorrem a uma grande diversidade de fontes. Devemos reconhecer que para sabermos quem somos e qual vai ser o
impacto do nosso passado no nosso futuro, precisamos de conhecer as nossas origens.
Desse modo, os historiadores do futuro irão procurar transcrições de sessões de chat,
newsgroups, correio electrónico, câmaras web e sítios que ao mesmo tempo integram documentação diversa, p. ex. de empresas ou organismos oficiais, de bancos ou de instituições de saúde.
Quando nos anos 30 do Séc. XX, arqueólogos encontraram o arquivo de Persepolis, sobrevivente do incêndio do palácio depois da queda de Alexandre, verificaram que o material
de suporte à informação, as placas de argila, tinham conseguido a sobrevivência ao fogo.
Contudo, o conteúdo de muitas dessas placas ainda não foi transcrito e mesmo a sua
transcrição, quando possível, não é 100% fiável. Da mesma forma, migramos a informação digital de um suporte para outro ou de um formato que se tornou obsoleto para outro
e permanece a dúvida quanto ao nível de confiabilidade.
Há, pois, uma certa semelhança ao que acontece com o suporte e o conteúdo das placas
de argila. O seu conteúdo e estrutura devem ser estudados e interpretados da mesma maneira, ao nível da durabilidade, inteligibilidade, metadados, recuperação de dados e obsolência tecnológica. Os equipamentos de depósito digital, por seu lado, podem fornecer pequenas pistas sobre os formatos dos dados que contêm mas, por enquanto, só ocasionalmente possuem alguma indicação de hardware necessário para aceder a esses dados28.
27
28
STAPPEL, Johan, DE NIET, Marco, JOCHUM-STARK, Dorothea (2001) – TEL Metadata : state of the
art review (3rd draft and final version).
ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholarship. London, National Preservation Office.
25
3. QUADRO TEÓRICO DE REFERÊNCIA
3.2. O PAPEL DAS INSTITUIÇÕES PATRIMONIAIS
Segundo a UNESCO (Lor & Sonnekus,1997)29 uma biblioteca nacional, como instituição
cultural, deve espelhar a sociedade onde está inserida e dessa forma consoante as diversas nações, aparecem bibliotecas nacionais também elas com algumas variantes.
Muitas bibliotecas nacionais, bibliotecas académicas, arquivos nacionais e outras organizações detentoras de enormes quantidades de documentos têm vindo a desenvolver trabalhos de microfilmagem e digitalização em larga escala com vista a preservação e divulgação de documentação de interesse nacional. Os investigadores das gerações futuras terão
à sua disposição valiosos fundos de conteúdo histórico, os quais darão lastro para um número infinito de investigações, e produção de conhecimento.
Tomando como exemplo a política de desenvolvimento de colecções da Biblioteca do Congresso30 dos EUA que nos diz ter, como objectivo, servir o governo, a escola e o público
em geral verificamos que no que diz respeito à preservação de colecções que o propósito
é, não só conservar, mas também proporcionar a consulta do público a documentos de natureza precária e de interesse nacional ou seja garantir o acesso31. Nessa perspectiva a
microfilmagem convive, em paralelo com a digitalização.
A digitalização dos documentos existentes, está em curso tendo em conta a necessidade
urgente de divulgação das obras. Em paralelo com a preocupação da preservação de colecções encontramos a da eliminação.
G. E. Gorman & B. R. Howes em 198932 dizem-nos que preservação e eliminação estão estreitamente ligadas mas que a preservação é antes de tudo um problema nacional e não
local, raciocínio que podemos trazer para o campo das colecções nascidas digitais pois toda
a atenção sobre a sua preservação a longo prazo está a ser considerada por bibliotecas e
arquivos nacionais de todo o mundo.
Passando para outra realidade, em 2002 M. L. Cabral33, no âmbito de Congresso da IFLA
faz um breve resumo dos resultados de uma pesquisa baseada em questionários apresentados a bibliotecas nacionais na Europa do Sul sobre as condições de preservação de documentos em qualquer suporte e os resultados não são animadores:
Os problemas existentes são sobretudo a nível organizacional e não técnico:
LOR, Peter Johan, SONNEKUS, Elisabeth A. S. (1997) - Guidelines for legislation for national library
services. UNESCO.
30
http://lcweb.loc.gov/acq/devpol/cps.html
31
http://lcweb.loc.gov/preserv/prd/presdig/presintro.html
32
GORMAN, G. E. & Howes, B. R. (1989) – Collection development for libraries. London, BowkerSauer
29
26
3. QUADRO TEÓRICO DE REFERÊNCIA
Existe uma deficiente definição de objectivos, logo, ausência de estratégias.
A prevenção surge em segundo plano quando deveria aparecer em primeiro, lugar que é ocupado pela acções de tratamento propriamente dito.
A partilha de recursos é inexistente o que enfraquece ainda mais as já debilitadas políticas de preservação quando estas existem.
Uma realidade felizmente diferente é a política de preservação digital da Biblioteca Nacional da Austrália34, que identifica as entidades que devem preservar a herança cultural nacional e torná-la acessível e que são:
Biblioteca nacional
Bibliotecas universitárias
Algumas bibliotecas públicas
Arquivos de organizações estatais
Museus
Criadores e editores
Utilizadores de informação
O Governo e a comunidade em geral
E refere ainda os objectivos do trabalho conjunto a desenvolver relacionados com:
Identificação dos parceiros com competências apropriadas para contribuir
para o esforço nacional
Estabelecimento de protocolos sobre as responsabilidades e os papéis a
desempenhar
Explicitação dos acordos de cooperação financeira que garantam uma base
confiável de acessos ao longo do tempo
33
34
CABRAL, Maria Luísa (2002) – Preservation and conservation in South Europe : a survey among
national libraries. In : IFLA council and General Conference, 68th, Glasgow, 2002
NLA (2002) – A digital preservation policy for the National library of Australia
27
3. QUADRO TEÓRICO DE REFERÊNCIA
Cooperação na identificação, desenvolvimento e promoção de políticas,
procedimentos e ferramentas que sustentam tais princípios
Trabalho com os criadores, editores e utilizadores dos conteúdos digitais
no sentido de promover a utilização de boas práticas com vista a preservação
Trabalho com os legisladores e órgãos de poder no sentido de desenvolver
enquadramentos legais que garantam uma boa relação custo-benefício aos
sistemas de preservação
3.2.1. Os recursos digitais e o depósito legal
No nosso país, o depósito de recursos digitais ainda não é sujeito a obrigatoriedade legal.
Encontra-se, por esse facto, limitada a missão da Biblioteca Nacional de Portugal na preservação da memória colectiva nacional.
Parece-nos pertinente aproveitar os princípios de depósito legal dos documentos tradicionais, no nosso país e aplicá-los aos recursos digitais, com o óbvio alargamento às especificidades próprias do meio digital, nomeadamente para efeitos de acesso e preservação.
Para que seja possível preservar os recursos digitais depositados, estes devem ser acompanhados de metadados no sentido de garantir a sua reprodução posteriormente.
Citamos os objectivos do depósito legal que encontramos em página da Internet da responsabilidade da Biblioteca Nacional de Portugal35:
1) Constituição e conservação de uma colecção nacional (todas as publicações
editadas no país);
2) Produção e divulgação da bibliografia nacional corrente;
3) Estabelecimento de estatísticas nacionais;
4) Enriquecimento de bibliotecas dos principais centros culturais do país;
5) Assegurar a constituição de importantes e riquíssimos fundos bibliográficos
para as gerações futuras.
São objecto de depósito legal as seguintes publicações :
35
BIBLIOTECA NACIONAL – Serviço de Depósito Legal - Serviços: Serviços para Editores: Depósito
Legal, A Constituição de uma Colecção Nacional. http://www.bn.pt/servicos-ao-publico/spdeposito-legal.html
28
3. QUADRO TEÓRICO DE REFERÊNCIA
Livros, brochuras, revistas, jornais e outras publicações periódicas, separatas, atlas e cartas geográficas, mapas, quadros didácticos, gráficos
estatísticos, plantas, planos, obras musicais impressas, programas de
espectáculos, catálogos de exposições, bilhetes - postais ilustrados, selos,
estampas,
cartazes,
gravuras,
fonogramas
e
videogramas,
obras
cinematográficas, microformas e outras reproduções fotográficas;
Obras impressas no estrangeiro que tenham indicação do editor domiciliado em Portugal e que são equiparadas às obras portuguesas, para cumprimento de Depósito Legal;
Teses de mestrado e doutoramento, trabalhos de síntese, estudos e dissertações e outros trabalhos relativos às carreiras docentes do ensino universitário e do ensino superior politécnico estão abrangidas pela obrigatoriedade de Depósito Legal;
As reimpressões e as novas edições são consideradas como obras diferentes, sujeitas à obrigação de depósito, desde que não se trate de simples
aumentos de tiragens. Obras publicadas há menos de um ano, apenas se
exige um exemplar ou cópia.
Actualmente, este serviço é regulado pelos Decreto-Lei nº 74/82 de 3 de Março e o Decreto-Lei nº 362/86 de 28 de Outubro36
Não podemos deixar de referir o trabalho conjunto entre a CDNL (Conference of Directors
of National Libraries) e a UNESCO com o objectivo de desenvolver orientações para as bibliotecas nacionais, com vista à preparação de legislação de depósito legal específica para
recursos digitais37. Este documento complementa as linhas orientadoras preparadas em
1981 por Jean Lunn38. No que diz respeito à preservação dos recursos digitais, considerase que, dada a longevidade curta e obsolência dos suportes e dos meios, é importante que
através do depósito legal os repositórios tenham cobertura legal para copiar, refrescar ou
migrar as publicações depositadas com o objectivo de as preservar para o futuro. Estas
garantias devem constar da legislação de cada país.
36
37
38
Portugal, leis, decretos - Decreto-Lei nº 74/82 de 3 de Março ; Decreto-Lei nº 362/86 de 28 de
Outubro
CDNL (Conference of Directors of National Libraries) (1996) – The legal deposit of electronic publications. Unesco.
LUNN, Jean (Prep.) (1981) – Guidelines for legal deposit legislation. Paris, General Information
Programme and UNISIST – Unesco. (PGI-81/WS/23)
29
3. QUADRO TEÓRICO DE REFERÊNCIA
Cada biblioteca detentora de depósito legal, no seu ambiente legal, deve trabalhar no sentido de facilitar o acesso dos recursos digitais no mais breve espaço de tempo.
No caso da lei portuguesa, como referido acima, ainda não existe qualquer referência explícita a documentos electrónicos, mas um novo diploma legal encontra-se já em discussão39. Este, a ser aprovado, estende-se às imagens em movimento para preservação e
acesso e ainda às publicações electrónicas com suporte físico. Os recursos digitais sem suporte físico serão objecto de depósito legal selectivo em termos a estabelecer entre a Biblioteca Nacional e os respectivos produtores.
No que diz respeito aos recursos electrónicos sem suporte físico deve ser tido em consideração que estes podem estar distribuídos por vários servidores em vários países. Por outro
lado, os meios utilizados para a sua criação podem ser vários e também distribuídos.
A orientação do CDNL vai no sentido da abrangência das publicações electrónicas com ou
sem suporte físico para que a integridade do acesso à informação fique garantida, independentemente do suporte.
Apesar da herança digital dos portugueses nossos contemporâneos estar, por enquanto,
sem regulamentação própria, existe vontade e determinação de alterar a situação como o
prova o recente manifesto40 elaborado por ocasião do Encontro sobre Preservação Digital
que decorreu em Lisboa, organizado pela Biblioteca Nacional e pela EPCA (European Comission on Preservation and Access).
3.2.2. Modo de aquisição dos recursos
Uma vez decidido o âmbito geral, missão e objectivos do repositório que vai acolher recursos digitais para preservação impõe-se uma decisão sobre o método de aquisição.
Este pode idealmente ser um complemento de depósito legal e de depósito voluntário dos
produtores, constituindo-se assim a forma passiva de adquirir recursos.
Outra opção possível é a considerada pró-activa e neste caso é o repositório que vai ao encontro dos recursos através da Internet. Especificando melhor :
Forma passiva
Os recursos digitais podem ser adquiridos ou por meio de acordos com os produtores/editores ou através de medidas legais estabelecidas, tais como o depósito legal referido
anteriormente.
39
40
http://www.apbad.pt/pdeposito_legal.htm
BORBINHA, José Luís et al. (2002) – Manifesto para a preservação digital. Cadernos BAD, 2
30
3. QUADRO TEÓRICO DE REFERÊNCIA
A opção de acordo parece-nos ser bastante equilibrada pois o “ruído” na construção das
colecções é reduzido ao serem seguidas linhas orientadoras para a primeira fase do ciclo
de vida dos recursos (ver ponto 3.4), fase da criação. Logo nesta fase devem ser integrados metadados que são indispensáveis para ulterior gestão da preservação.
No caso do depósito legal, os produtores nem sempre são conhecedores da necessidade da
sua colaboração no momento da inclusão de metadados e por esse motivo, torna-se necessário proceder a conferência da existência dos mesmos. No caso da sua ausência, o repositório é obrigado a incorporá-los.
Forma pró-activa
O método de ir ao encontro dos recursos pode ser executado através de dois processos, ou
com a ajuda do elemento humano ou automaticamente.
No primeiro caso, a captura de recursos torna-se pouco produtiva apesar de mais consistente. Os recursos humanos disponibilizados para este tipo de trabalho especializado não
conseguem obviamente acompanhar o ritmo de aparecimento de novos recursos.
Ao diminuir a quantidade de recursos respigados diminui a abrangência das colecções do
repositório. Também o objectivo deste tipo de captura pode ser questionado por se desconhecerem as necessidades das gerações futuras.
A captura automatizada, levada a cabo por robots, Web-crawlers (software de busca de
páginas Web através da Internet, normalmente ao serviço dos motores de busca) é o método que mais se adequa à aquisição através da Internet. As colecções são construídas de
forma distribuída, o que lhes acrescenta representatividade bem como as características de
abrangência temática de que carece a opção manual. Este método, dada a enorme quantidade de dados com que lida leva a que seja necessário proceder a cada “viagem” de
captura com intervalos de tempo. Cada período de captura, só por si, pode durar alguns
meses.
O repositório, dependendo das suas características, terá necessidade de articular ambos os
métodos de aquisição e torná-los complementares (Lupovici & Masanès, 2001)41.
A opção manual ajuda a seguir a evolução dos sítios e favorece o contacto com os produtores/editores. Desta forma é possível aceder a áreas restritas e a páginas dinâmicas.
A opção automática permite o acesso a uma grande quantidade de recursos distribuídos e
torna-se por esse motivo representativa da informação de um determinado espaço.
41
LUPOVICI, Catherine & MASANÈS, Julien (eds.)(2001) - What's next for Digital Deposit Libraries?
Preserving online content for future generation. In : 5th European Conference on Research and
Advanced Technology for Digital Libraries. ECDL Workshop. Darmstadt, 2001
31
3. QUADRO TEÓRICO DE REFERÊNCIA
3.3. CARACTERIZAÇÃO DO AMBIENTE TECNOLÓGICO
A infraestrutura/repositório deve ser planeada de forma a que os tipos de recursos seleccionados possam ser aí depositados cada qual com tratamento específico, tendo em conta o
seu ciclo de vida integral.
3.3.1. Características dos recursos
Os recursos podem ser constituídos por texto proveniente de processadores de texto, imagens digitalizadas, ficheiros digitais multimedia altamente complexos, estruturas de bases
de dados, recursos da Internet tais como listas de distribuição ou newsgroups, etc, etc.
Também a Internet apresenta uma enorme variedade de formatos. Além de páginas HTML
podem ser encontrados todos os tipos de formatos multimedia, ao mesmo tempo que novos tipos de dados aparecem e desaparecem em sucessão rápida.
No seguimento da decisão sobre os formatos a armazenar, deve determinar-se a forma de
armazenamento, preservação e acesso (Aschenbrenner, 2001)42.
Quanto aos recursos digitais estáveis não existe grande preocupação no que diz respeito
ao seu armazenamento a longo prazo. Segundo Aschenbrenner op. cit.43 podemos armazená-los sem ter conhecimento do seu tipo. Somente numa fase ulterior, quando um utilizador manifesta a necessidade de aceder ao recurso são accionados os mecanismos de interpretação dos dados. Deste modo são gerados tipos de documentos dinâmicos e interactivos que uma vez finalizada a sessão de trabalho são eliminados.
A questão da selecção dos recursos da Internet para preservação a longo prazo deve ser
equacionada sob o ponto de vista da abrangência temática. Consoante a missão do repositório assim a construção as políticas de selecção anteriormente referidas.
A captura dos recursos pode ser efectuada como já foi referido no ponto anterior, através
de indexação automática ou com intervenção humana.
A indexação automática é considerada a mais complexa. A pesquisa automática depende
de aplicações que contornem os constrangimentos da Internet.
Os Web-crawlers, que perscrutam a Internet por varrimento e que são essenciais para o
desenvolvimento dos repositórios digitais ainda não atingiram um estado de maturidade
que lhes permita ultrapassar uma parte dessas dificuldades com êxito.
42
ASCHENBRENNER, Andreas (2001) – Long-term preservation of digital material : building na archive do preserve digital cultural heritage from the Internet. Wien, Institut für Softwaretechnik
und Interaktive System. 110 p. (Diplomarbeit)
43
ASCHENBRENNER, Andreas (2001) - Op. cit.
32
3. QUADRO TEÓRICO DE REFERÊNCIA
Diz-nos Brewster Kahle em entrevista dada à RLG-Diginews em 200244, quando questionado acerca de falhas no motor de busca “Wayback Machine”, que algumas dessas falhas
constam dos próprios recursos e as outras são provenientes do trabalho dos robots.
Por outro lado e segundo a interessante experiência dos países nórdicos é a única forma
de não existirem perdas e assim preservar a memória colectiva integralmente.
Esta estratégia expressa no projecto Kulturarw345 é conseguida no exemplo da Suécia
através de retratos da Internet duas vezes por ano, em todo espaço da Suécia nos domínios .se, .com, .org, .net, .nu com endereços ou telefones da Suécia.
Este procedimento deve ser efectuado da forma mais rápida possível para obviar a alterações dos ficheiros que fazendo parte do mesmo documento sejam recuperados em tempos
diferentes, o que por vezes, origina uma quebra na autenticidade dos recursos se entretanto tiver havido lugar a alterações. Dessa forma é armazenado um novo documento, não o
original.
Não existe, no contexto deste projecto, qualquer orientação que tipifique a selecção dos
tipos de recursos, i.e. são recuperadas todas as imagens, som, etc.
3.3.2. Características dos suportes de armazenamento dos recursos
Uma vez os recursos seleccionados consideramos o seu armazenamento. O espaço necessário para depósito deve ser equacionado em função dos objectivos do repositório atendendo a que provavelmente vai ser armazenada uma grande quantidade de recursos.
Deve ser estudado o compromisso entre a capacidade, o tempo de acesso e os custos.
Selecção dos suportes de armazenamento
A banda magnética continua a ser o suporte de armazenamento mais utilizado para grande
quantidade de dados.
Existem dois tipos de suportes magnéticos : de alto e de baixo magnetismo. Para se conseguir alto magnetismo o suporte deve ser exposto a um forte campo electromagnético.
Como resultado conseguem-se altos níveis de magnetismo remanescente. São os suportes
de alto magnetismo com grande saturação remanescente e alta coercividade que são
adaptáveis ao armazenamento de dados digitais46.
44
KAHLE, Brewster (2002) – The Internet Archive. RLG Diginews, 6 (2) , p. 1-7.
ARVIDSON, Allan, PERSSON, Krister & MANNERHEIM, Johan (2000) - The Kulturarw3 Project : the
Royal Swedish Web Archiw3e: an example of "complete" colection of web pages. IFLA Council
and General Conference, 66th, Jerusalem, 2000
46
ROSS, Seamus & GOW, Ann (1999) - Digital archaeology : rescuing neglected and damaged data
resources. London., Library Information Technology Center. (JISK/NPO Study)
45
33
3. QUADRO TEÓRICO DE REFERÊNCIA
No que diz respeito ao acesso às bandas magnéticas como resposta a interrogações de utilizadores existe a possibilidade da sua manipulação em sistemas robotizados, vulgarmente
chamados “juke-boxes”, porém, trata-se de processo muito complexo e dispendioso.
Apesar destes constrangimentos ainda são as bandas magnéticas que oferecem soluções
de mais baixo custo se manipuladas com a ajuda do elemento humano. Neste caso, existe
um tempo de espera compatível com a actividade de recuperação da banda por parte do
serviço.
Outro tipo de suporte magnético a considerar é baseado em discos rígidos que devem ser
dimensionados para grandes quantidades de dados e de que se colocam vários num só
computador.
Segundo Ashenbrenner op. cit.47, é possível conseguir bons resultados através da combinação da utilização dos sistemas de bandas magnéticas e discos rígidos ao manter depositados nas bandas os recursos menos procurados, e de forma mais acessível, nos discos
rígidos, uma pequena quantidade de recursos com maior probabilidade de serem objecto
de pesquisa. Neste caso há que considerar atentamente o âmbito e missão dos repositórios.
Paralelamente a estas opções existe a tecnologia dos CD-ROMs que permite o rápido acesso aos recursos. Considera-se simultaneamente a utilização na retaguarda de bandas
magnéticas como sistema de back-ups.
Duração dos suportes de armazenamento
Qualquer que seja a opção de suporte de armazenamento subsistem problemas relacionados com :
- Deterioração do suporte
- Obsolência técnica do suporte
- Deterioração das drives
a) Suportes magnéticos
Os sistemas magnéticos não são estáveis48, são susceptíveis de deterioração por oxidação
e corrosão. Estas podem conduzir a perda de coercividade das partículas e desse modo
ocasionar perda de dados.
47
48
ASCHENBRENNER, Andreas (2001) - op. cit.
ROSS, Seamus & GOW, Ann (1999) - op. cit.
34
3. QUADRO TEÓRICO DE REFERÊNCIA
Alguns problemas advêm também das condições de humidade e temperatura que podem
causar incapacidade de localização das pistas, logo, os dados estarão provavelmente perdidos.
Consideramos ainda a forma de armazenamento das bandas. Se a banda estiver mal enrolada, e for deixado espaço de circulação do ar a humidade instala-se. Se a banda for esticada de mais pode quebrar-se. Se a banda não for enrolada de forma uniforme subsiste
um tipo de tensão que causa deterioração da emulsão.
Provavelmente muitos destes problemas não chegam a existir se as bandas forem manuseadas respeitando as normas de segurança.
De igual modo deve existir uma boa manutenção e substituição regular das “drives” pois se
as cabeças estiverem sujas ou já tiverem sido muito usadas existe o risco de incapacidade
de leitura ou mesmo danificação das bandas.
Em 1995, John W.C. Van Bogart49 em relatório do National Media Laboratory estima, como
longevidade média das bandas magnéticas, um período de tempo que varia entre 10 e 20
anos; contudo as opiniões nesta matéria variam entre as marcas.
Rothenberg em 199550 e também em 199851 advoga a cópia das bandas magnéticas uma
vez por ano. Considera este autor que é a única forma de evitar perdas de informação
quando a preservação se realiza neste suporte magnético.
Baseados em Rothenberg (1995) op. cit.52 apresentamos uma estimativa de tempos de
vida, sem perda de qualidade, para os vários suportes magnéticos :
- Banda magnética – 1 ano
- “Videotape” – 1 a 2 anos
- Disco magnético – 5 a 10 anos
Mais tarde, em 1999, numa revisão do mesmo trabalho53, Rothenberg refere que existe
uma grande controvérsia em redor da longevidade dos suportes de armazenamento digital
e que há mesmo quem diga que a banda magnética pode ter uma duração de 200 anos
contrapondo com outros que consideram essa duração de 1 ano ou 2. Contudo, a longevi-
49
50
51
52
53
BOGART, John W.C. Van (1995) - Magnetic tape storage and handling : a guide for libraries and
archives. Washington, The Commission on Preservation and Access & National Media Laboratory.
ROTHENBERG, Jeff (1995) – Ensuring the longevity of digital documents. Scientific American. Jan.
1995
ROTHENBERG, Jeff (1999) - Avoiding technological quicksand: finding a viable technical foundation
for digital preservation. CLIR.
ROTHENBERG, Jeff (1995) – Op. cit.
ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. (Expanded version)
35
3. QUADRO TEÓRICO DE REFERÊNCIA
dade física dos suportes tem pouca ou nenhuma importância uma vez que a sua obsolência
se irá verificar em menos de 5 anos.
Por outro lado Bogart também em 1995 op. cit. estima o tempo de vida da banda magnética de entre 10 e 20 anos. No entanto, não refere se a qualidade se mantém inalterada, o
que nos parece pouco provável dadas as características físicas do suporte.
b) Sistemas ópticos e magneto-ópticos
Tal como nos sistemas magnéticos podemos encontrar muitos motivos de preocupação relacionados com influências do ambiente, de manuseamento e também factores mecânicos.
Contudo os suportes ópticos têm uma utilização cada vez maior para armazenamento de
informação.
Os CD-ROMs são compostos por emulsão, uma camada de dados, uma camada reflectora e
uma cobertura de protecção54.
Os materiais usados na produção dos suportes ópticos variam consoante as marcas e da
mesma forma fazem variar os tempos de duração. Por exemplo um CD-ROM que é usado
uma única vez pode vir a ter uma duração de entre 50 e 100 anos, contudo aconselha-se o
seu refrescamento após 10 anos55.
Os sistemas magneto-ópticos são bastante menos resistentes e ao mesmo tempo mais
dispendiosos. São também mais sensíveis a alterações ambientais de temperatura e humidade, que podem mesmo fracturar a camada magnética.
Como estratégia para reduzir os riscos de perda de informação perante a duvidosa longevidade dos suportes, dever-se-á proceder a um refrescamento dos dados no próprio suporte a intervalos de tempo regulares. Da mesma maneira deve-se proceder a migrações de
suporte antes que este esteja fisicamente corrompido.
Consideramos sempre a necessidade da existência de várias cópias para que uma substitua outra em caso de deterioração.
As cópias devem ser armazenadas em localizações geográficas distintas. Convirá ter presente que podem ocorrer catástrofes naturais, sabotagens ou actos de terrorismo como p.
ex. aquele que aconteceu em Nova York em 11 de Setembro de 2001.
As formas de enfrentar e controlar o risco serão tratadas mais à frente em capítulo próprio.
54
55
ROSS, Seamus & GOW, Ann (1999) op. cit
WEBER, Hartmut (1993) - Opto-electronic storage : an alternative to filming ? CLIR - Commission
on Preservation and Access.
36
3. QUADRO TEÓRICO DE REFERÊNCIA
3.3.3. Obsolência dos dispositivos de leitura
Os tempos de vida dos suportes não são, de facto, o factor mais importante para a preservação dos recursos digitais.
Os dispositivos de leitura à disposição no mercado são substituídos a intervalos de tempo
muito curtos, por outros sempre com performances melhoradas e vendidos a preços inferiores.
Mais uma vez referimos a necessidade de migrar os dados sempre que o acompanhamento
das novidades aconteça para que se não corra o risco de ser ultrapassado pela obsolência
dos dispositivos.
3.4. CICLO DE VIDA DOS RECURSOS DIGITAIS
3.4.1. Criação dos recursos
A criação é o acto de produzir informação, não sendo imperativo que o criador seja humano, podendo ser um equipamento electrónico preparado para o efeito (Hodge, 2000)56.
É nesta primeira fase que as fundações da preservação devem ser lançadas. O criador
deve estar envolvido neste processo.
No caso da produção originada por máquina são incluídos à partida alguns metadados que
acrescentam informação de referência aos registos. Esta informação pode ser relativa à
localização e a tipos de instrumentos e indicadores de ordem geral que documentem e
identifiquem o recurso. Do mesmo modo, deve ser acrescentada informação relativa ao
hardware e software envolvidos.
No caso de criação humana e sempre que possível, o criador deve enriquecer o seu trabalho com os metadados identificadores dessa criação. Algumas aplicações informáticas possuem estruturas de preenchimento de metadados que permitem documentar a criação do
recurso.
Como a tendência é a da incorporação das linguagens XML (Extensible Markup Language)
e RDF (Resource Description Framework), a utilização de metadados torna-se fácil. Estas
ferramentas facilitam a preservação dos recursos e valorizam a qualidade da indexação
automática.
A título de exemplo referimos o modelo de metadados de utilização de um leque alargado
de comunidades que é o Dublin Core e sobre o qual nos debruçaremos no capítulo referen-
56
HODGE,G.M. (2000) - Best practices for digital archiving : an information life cycle approach. D-Lib
Magazine. 6 (1)
37
3. QUADRO TEÓRICO DE REFERÊNCIA
te a metadados. Fácil de utilizar, flexível e expansível com a ajuda de qualificadores dos
elementos base, tem as potencialidades necessárias à interoperabilidade, já que a tendência actual é para uma grande multiplicidade de normas e especificações (Cordeiro, 2001)57.
3.4.2. Selecção dos recursos
A selecção dos recursos a preservar a longo prazo constitui uma medida de gestão das instituições tutelares do repositório digital e baseia-se na sua missão e objectivos.
A política de selecção deve ser documentada depois de ter sido objecto de discussão e reflexão profundas. No seguimento do trabalho conjunto devem surgir princípios que norteiam a selecção. Refiram-se as linhas orientadoras da Biblioteca Nacional da Austrália58 e
também as da Biblioteca Nacional do Canadá59, disponíveis na Internet nos respectivos sítios.
A política de selecção a instituir deverá ter em conta o valor cultural, histórico ou de carácter científico dos recursos a depositar, assim como as necessidades da comunidade de utilizadores.
Alguns exemplos de selecção
A Biblioteca Nacional da Austrália através do seu projecto PANDORA selecciona para preservação de longo prazo monografias, publicações periódicas, home pages, documentos
efémeros, conteúdos australianos em contexto social, político, cultural, religioso, científico
ou económico relevantes para a Austrália e da autoria de australianos, assim como recursos digitais provenientes de órgãos oficiais e assuntos pontuais seleccionados pelo responsável pela gestão de colecções.
A Biblioteca Nacional da Austrália deposita apenas uma versão de cada trabalho se este
possuir múltiplas versões em suportes diferentes.
A Biblioteca Nacional do Canadá integra a selecção de recursos digitais na política de gestão de colecções. Nas suas linhas orientadoras60 verificamos que a selecção de recursos
electrónicos se baseia na proveniência dos recursos, que deve ser canadiana. Também, tal
como a Biblioteca Nacional da Austrália, são preservados os recursos de domínios não canadianos, mas que tenham interesse cultural, histórico ou científico para a nação canadiana.
57
58
59
60
CORDEIRO, Maria Inês (2001) – Tecnologias, bibliotecas e arquitectura de informação : dos sistemas aos objectos. In : Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, Porto, 2001
http://www.nla.gov.au/scoap/guidelines.html
http://www.nlc-bnc.ca/pubs/irm/eneppg.htm
http://www.nlc-bnc.ca/9/8/index-e.html#7a
38
3. QUADRO TEÓRICO DE REFERÊNCIA
A Biblioteca Nacional da Suécia, através do projecto Kulturarw3 tem uma abordagem totalmente diferente no que concerne à selecção de recursos digitais já que considera que
ao seleccionar um e não outro recurso pode estar a cometer um erro e assim obstar à consolidação consistente do conhecimento futuro. Desta forma captura todos os sítios do domínio .se e ainda os criados na Suécia mas de domínio .com. Adicionalmente colecta em
toda a Internet todos os sítios que se refiram explicitamente a assuntos suecos.
A Biblioteca Nacional da Finlândia, através do projecto EVA (Elinkeinoelämän Valtuuskunta
- the acquisition and archiving of electronic network publications) segue a mesma orientação da Suécia mas limita as suas operações de captura a intervalos de tempo regulares.
No caso português, em sede da Biblioteca Nacional, estuda-se a selecção sobre publicações
periódicas electrónicas nacionais, documentos oficiais em formato digital, teses, dissertações e literatura cinzenta produzida na comunidade científica nacional.
Lopes, Cardoso & Moreira (2002)61 defendem para Portugal a opção do depósito voluntário
em detrimento de uma imposição legal. Segundo estes autores o acordo entre p. ex. editores e Biblioteca Nacional viria permitir a implementação de um sistema de recolha selectiva
e ao mesmo tempo criar condições para a definição da estrutura das páginas permitindo a
sua actualização periódica.
Referimo-nos ainda à extensão da selecção do ponto de vista hipertextual. De que forma
devem os links ser seleccionados para preservação? A maior parte das organizações deposita os URLs (Uniform Resource Locator - endereços dos recursos na World Wide Web) e
não os conteúdos.
A Biblioteca Nacional da Austrália deposita os endereços e os conteúdos dos se estes estiverem contemplados nas linhas orientadoras referidas atrás e a Biblioteca Nacional do Canadá os que residirem no mesmo servidor que os recursos seleccionados.
Somente dois projectos depositam integralmente endereços e conteúdos: a Brewster Kale’s
Internet Archive, porque o seu objectivo é arquivar uma imagem de toda a Internet e a
American Astronomical Society que deposita todos os links de todos os recursos do domínio da astronomia e fá-lo em colaboração com outras sociedades astronómicas, cientistas,
universidades e agências governamentais (Hodge, 1999)62.
A propriedade intelectual deve ser considerada uma preocupação adicional no processo de
selecção de recursos a preservar a longo prazo, nomeadamente quanto à obrigatoriedade
61
62
LOPES, Pedro Faria, CARDOSO, Gustavo & MOREIRA, Maria Vasconcelos (2002) - Preservação de
publicações electrónicas na Internet: os arquivos imperfeitos. Cadernos BAD, N. 2.
HODGE,G.M. & CARROLL, Bonnie C. (1999) - Digital electronic archiving : the state of the art and
the state of the practice. International Council for Scientific and Technical Information
39
3. QUADRO TEÓRICO DE REFERÊNCIA
de recolha prévia de autorização dos autores, quer quanto à captura de recursos quer posteriormente quanto ao seu acesso. Citem-se, a propósito, os casos da Suécia e da Finlândia que excluem o contacto com os autores. Pelo contrário, a Biblioteca Nacional da
Austrália, no âmbito do seu projecto PANDORA, assim como a Biblioteca Nacional de
Portugal, fazem preceder o depósito da aquiescência formal dos criadores.
3.4.3. Identificação persistente dos recursos
Depois de seleccionado, o recurso deve ser identificado de forma inequívoca e persistente
para que possam ser estabelecidas ligações de longo prazo.
A título de exemplo referimos os PURLs (Persistent Uniform Resource Locators) implementados pela OCLC (Online Computer Library Center)63. Do ponto de vista funcional os PURL
são endereços URL que ao invés de apontarem directamente para um endereço na Internet, sujeitando-se à instabilidade já por todos experimentada e traduzida na expressão
“page not found”, encaminham para um outro serviço, intermédio que nomeia os recursos
e que separa a sua localização da sua identificação. Um PURL é composto por três partes:
1) um protocolo ; 2) um endereço de resolução de PURL ; 3) um nome
Damos alguns exemplos retirados de Shafer et al., s.d.64
http://purl.oclc.org/keith/home
http://purl.oclc.org/OCLC/pull/FAC
http://purl.oclc.org/OCLC/OLUC/32127398/1
Protocolo
Endereço de re-
Nome
solução
Também em Portugal a identificação persistente é estabelecida através de PURL.
Outro sistema de identificação persistente é da responsabilidade da International DOI
Foundation e chamado DOI (Digital Object Identifier) 65.
63
64
65
http://purl.oclc.org
SHAFER, Keith (s.d.) – Introduction to Persistent Uniform Resource Locators
http://www.doi.org
40
3. QUADRO TEÓRICO DE REFERÊNCIA
O DOI é um sistema que permite a identificação persistente e a interoperabilidade da propriedade intelectual num ambiente de rede digital. Permite gerir conteúdos intelectuais em
qualquer formato, com qualquer nível de granularidade e em qualquer ambiente digital.
A estrutura do DOI tem dois componentes: um prefixo e um sufixo e o comprimento é variável. O prefixo identifica a organização que pretende registar DOIs. Em seguida, separado por uma barra encontra-se o sufixo que identifica o recurso.
O DOI pode incorporar qualquer identificação já existente como é o caso p. ex. do ISBN,
integrado como sufixo.
O sistema de resolução é o Handle System66, um standard de arquitectura aberta e escalável da responsabilidade da Corporation for National Research Initiaves67, instituição sediada no estado de Virgínia nos Estados Unidos da América.
O DOI encontra-se implementado em numerosos sistemas e detém entre outras, as seguintes potencialidades68 :
Persistência
Interoperabilidade
Extensibilidade
Independência de plataforma
Actualização dinâmica de metadados, aplicações e serviços.
Damos dois exemplos de DOI extraídos de PASKIN, op. cit.69:
10.1000/182
10.1000/ISBN1-900512-44-0
Prefixo
Sufixo
A opção por PURL ou DOI é, mais uma vez, determinada pela actividade das comunidades
implementadoras.
66
67
68
69
http://www.handle.net
http://www.cnri.reston.va.us/
PASKIN, Norman (2003) – The DOI handbook. 3rd ed. International DOI Foundation.
PASKIN, Norman (2003) – Op. cit.
41
3. QUADRO TEÓRICO DE REFERÊNCIA
No caso da OCLC, foi a consciência da existência dos constrangimentos da Internet que
podem inviabilizar a leitura dos recursos enquanto estes não são definitivamente depositados em repositórios e respondem por um simples endereço URL.
A International DOI Foundation responde pelas necessidades da comunidade de negócios,
que pretende garantir além do acesso permanente aos recursos, meta-informação adicional sobre direitos de autor ou outra.
3.4.4. Descrição e acesso dos recursos
No contexto da biblioteca digital como no da tradicional encontramos um qualquer documento através de índices, criados com a intenção de tornar os documentos fáceis de descobrir. Esta indexação é estabelecida através de metadados.
Os metadados existem para descrição, acesso, gestão e preservação dos recursos depositados no reservatório. Estes podem ser armazenados segundo estruturas de diversos tipos
alimentadas pelo elemento humano ou por software de indexação automática.
A descrição dos recursos é geralmente construída com base em políticas de gestão de colecções e ao mesmo tempo as características dos metadados variam consoante a tipologia
dos dados e o propósito da sua criação.
A pertinência e relevância da resposta ao utilizador final está dependente não só da boa
qualidade dos metadados como da qualidade e manutenção das ligações, assunto este que
não cabe no âmbito deste trabalho.
Mais à frente, no ponto 3.7 iremos encontrar desenvolvido o assunto metadados de preservação, os quais, neste caso, são criados especificamente para viabilizar a preservação
de longo prazo.
3.4.5. Armazenamento dos recursos
As boas práticas de armazenamento, no ciclo de vida dos recursos digitais, devem ser estabelecidas no mais curto espaço de tempo, tendo em conta a rápida e efectiva obsolência
de tecnologias e suportes.
Existem versões novas de bases de dados, folhas de cálculo e processadores de texto de
dois em dois ou três em três anos e enquanto alguns vendedores de software tornam
compatíveis as novas versões ou fornecem as estratégias de migração existem outros que
não garantem estas condições, o que dá origem a perda de informação e consequente perda da integridade dos dados.
O ambiente de hardware não é menos preocupante pois o ritmo de mudança é quase simultâneo.
42
3. QUADRO TEÓRICO DE REFERÊNCIA
Também os suportes de armazenamento se deterioram e hoje já podemos considerar perdida muita informação armazenada em velhas bandas magnéticas. Este assunto foi já desenvolvido nos pontos 3.3.2 e 3.3.3.
A maior parte das organizações tenta resolver a questão da gestão do armazenamento definindo estratégias de migrações de dados de 3 em 3 ou de 5 em 5 anos (Hodge, 2000)70.
O armazenamento faz-se preferencialmente em bandas magnéticas e CDs e os dados devem ser refrescados a intervalos de tempo regulares (Aschenbrenner, 2000)71.
3.4.6. Preservação de longo prazo e recuperação da informação
O ambiente digital, dadas as suas características de heterogeneidade e abertura à mudança, torna imperativa a investigação e o consequente surgimento de padrões que viabilizem
alguma normalização quanto à segurança do futuro dos recursos. As instituições que já
preservam recursos digitais há algum tempo referem que começaram por preservar uma
grande variedade de formatos e que esse número tem vindo a diminuir substancialmente,
especialmente no que diz respeito a folhas de cálculo e bases de dados (Paskin, 2003)72.
Contudo, diz-nos ainda o mesmo autor, que persiste uma baixa consistência na modelação, simulação e objectivos das áreas de software. Muito deste software continua a ser
construído especificamente para um dado projecto.
Uma das preocupações da preservação digital diz respeito à forma como os recursos aparecem aos olhos do utilizador final, sendo por vezes necessário proporcionar-lhe o contacto
com o conteúdo dos recursos assim como o seu look-and-feel ou seja a forma, o aspecto e
as características externas de usabilidade.
Este problema é em parte resolvido p. ex. através do formato PDF (Portable document
format), tanto para o caso de recursos textuais menos formais como é o caso da literatura
cinzenta como para publicações periódicas em formato electrónico. Não devemos contudo
deixar de realçar que o formato PDF é proprietário, o que constitui mais uma preocupação
para a área da preservação.
A recuperação da informação é um dos objectivos da preservação e culmina o ciclo de vida
dos recursos. Os dispositivos de acesso da Web podem não aceder directamente aos dados, como é o caso de ficheiros em formatos ASCII (American Standards Code for Information Interchange) ou SGML (Standard Generalized Markup Language). Em alguns casos
torna-se necessário recorrer a software específico para aceder aos recursos.
70
71
72
HODGE, Gail (2000) – Op. cit.
ASCHENBRENNER, A. (2000) – Op. cit.
PASKIN, Norman (2003) – Op. cit.
43
3. QUADRO TEÓRICO DE REFERÊNCIA
Ainda no que diz respeito ao acesso existe o problema da propriedade intelectual, que tem
vindo a ser resolvido através de legislação de depósito legal e licenciamentos.
3.5. INTEGRIDADE, AUTENTICIDADE E AUTENTICAÇÃO DE RECURSOS DIGITAIS
Antes de nos debruçarmos sobre a integridade, a autenticidade e a autenticação dos documentos digitais, devemos examinar a natureza dos recursos digitais que os compõem.
Os bits não são apreendidos pelos órgãos sensoriais humanos, pois não são artefactos na
verdadeira acepção da palavra. Em vez disso devem ser representados, executados, dispostos diante das pessoas pelo hardware e software que os interpreta. Contudo o foco da
questão encontra-se em primeiro lugar nos bits. A habilidade necessária para editar os dados passa por colocar o seu conteúdo de forma a poder manipulá-lo (Lynch, 2000)73.
O texto marcado em HTML e apresentado através de um Web browser assume uma dimensão sensorial. Recursos digitais constituídos por música, vídeo, imagens, incorporam
uma forte componente apelativa dos nossos sentidos. Os bits são os mesmos mas devido
às diferenças de hardware e software usados pelos receptores, a experiência obtida através da observação varia substancialmente.
Neste ponto encontramos questões relacionadas com a autenticidade e integridade. Em
casos extremos temos objectos que são representados de forma experimental, tais como
jogos de vídeo ou realidade virtual onde o fulcro é constituído pelos bits e pelo ambiente de
representação do sistema ou pelo menos pela interacção entre o recurso digital e a sua
representação.
3.5.1. Integridade
Para haver integridade não pode haver lugar a corrupções. A mesma sequência de bits que
gerou um recurso deve ser mantida ao longo do tempo. Desta maneira, Clifford Lynch em
200074 considera a aplicação de certos algoritmos que permitem responder pela integridade de várias abstracções do recurso e não só pela literal sequência de bits. Não obstante,
quando se procura testar a integridade dos recursos são encontradas algumas dificuldades
difíceis de ultrapassar.
73
74
LYNCH, Clifford (2000) - Authenticity and integrity in the digital environment : an exploratory
analysis of the Central Role of Trust. Washington, CLIR.
LYNCH, Clifford (2000) – Op. cit.
44
3. QUADRO TEÓRICO DE REFERÊNCIA
Diz-nos Lynch (2000)75 que os testes de integridade podem ser vistos como subprodutos
de avaliações de autenticidade, visto que deve existir a comparação de uma determinada
versão de um recurso digital com a versão original ou cópia de autoridade.
Desta forma, um dos métodos usados para testar a integridade é comparar o recurso com
a cópia tida como “verdadeira”. Assim, se o acesso a essa cópia dita verdadeira existir, poderão reproduzir-se outras cópias verdadeiras. Se esse acesso não for possível então os
testes de integridade limitam-se à consistência interna.
Se o recurso for acompanhado por um digest i.e., uma representação de texto na forma de
uma sequência de dígitos, criado através da utilização de uma fórmula intitulada one-wayhash function76, com uma assinatura digital autenticada pode determinar-se se existe consistência entre o recurso e o digest e dessa forma estabelecer o grau de integridade.
As assinaturas digitais devem estar ligadas a uma chave pública. Normalmente no momento do depósito é criado um hash i.e., um processo de representação do objecto digital
através de uma cadeia de dígitos, que é assinado usando uma chave privada ou o par chave privada/chave pública.
A chave pública do par limita-se a uma identidade registada num certificado passado por
uma autoridade certificadora. Este processo é satisfatório até ao momento em que ocorre
uma migração. Aí a assinatura é alterada.
Então, preferencialmente, o repositório deve, ele próprio, assegurar uma assinatura digital
para esse recurso e assegurar também que a cadeia de proveniência está devidamente
documentada.
Ainda Lynch, mas em 199977 refere que os metadados que acompanham cada recurso digital ajudam a manter a integridade referencial das ligações entre recursos ou entre metadados e recursos.
Num repositório digital os metadados estão associados a cada recurso com informação
descritiva, estrutural, administrativa, de direitos de autor, etc.
Estes metadados são mantidos e migram de formato em formato, de padrão em padrão
independentemente do recurso base que descrevem. Contudo alguns dos metadados associados a recursos limitam-se à representação do recurso através de uma assinatura digital,
75
76
77
LYNCH, Clifford (2000) - Op. cit.
Algoritmo que permite transformar mensagens ou textos numa sequência de dígitos com o propósito de garantir a gestão da segurança cf. Anexo 3.
LINCH, Clifford (1999) - Canonicalization : a fundamental tool fo facilitate preservation and management of digital information. D-Lib Magazine, 5 (9)
45
3. QUADRO TEÓRICO DE REFERÊNCIA
o que dificulta o processo de associação quando recursos e metadados migram de forma
assíncrona.
Lynch em 1999 (op. cit.)78 sugere a aplicação de um método a que o autor chama “canonicalization”, onde a utilização de formatos e algoritmos padronizados para vários tipos de
recursos são a solução para o problema da reparabilidade.
Estes podem ser usados para extrair a essência, isto é, o fluxo de bits acompanhado de
informação sobre a sua proveniência, neste caso ao nível da computacão propriamente dita
e não da custódia. É p. ex. o caso de uma assinatura digital.
O problema reside na definição consensual do algoritmo ou algoritmos correctos para um
determinado contexto.
A forma canónica, que contém as características essenciais de determinada classe de formatos de recursos não deve ser utilizada pelos repositórios, pois irá incrementar injustificadamente a necessidade de espaço. É ainda, segundo o mesmo autor, uma forma idealizada de formato, sem contrapartida ao nível da eficácia.
3.5.2. Autenticidade
A verificação da autenticidade, destina-se ao conteúdo dos recursos digitais e à forma
como estes foram criados, existe no contexto dos métodos de identificação e verificação
dos recursos, e não deve por isso ser confundida com autenticação, que aprofundaremos
no ponto seguinte e que existe no contexto da identificação e verificação da identidade do
assinante do recurso (Bearman & Trant, 1998)79.
Podemos questionar-nos se será possível em ambiente digital distinguir entre um original e
uma fraude ou falsificação.
A questão da fraude, quer no âmbito das actividades desenvolvidas pela sociedade civil,
quer no campo forense mantém permanentes fora de discussão e conduz à criação de cadeias de autoridade cada vez mais especializadas que interpõem uma barreira às intenções
fraudulentas; contudo o ambiente digital distribuído facilita a penetração de intenções menos sérias.
Algumas das mais promissoras qualidades dos recursos digitais, tais como as relacionadas
com a interactividade, são aquelas que revelam mais problemas de controlo de autenticidade.
78
79
LINCH, Clifford (1999) - Op. cit.
BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement
of requirements in the research process. D-Lib Magazine, June.
46
3. QUADRO TEÓRICO DE REFERÊNCIA
É interessante notar que sempre que existe um salto inovador na natureza dos processos
de edição, caso da tipografia, p. ex. redobram os estudos do âmbito da disciplina da Diplomática. É também o caso da autenticidade digital.
Bearman & Trant, op. cit., distinguem três métodos na busca de uma solução dos diferentes problemas de autenticidade digital:
1) Métodos públicos ligados à autenticidade das fontes, que incluem :
- A criação de depósito do copyright
- O depósito certificado das fontes originais combinado com serviços de
certificação de recursos
- O registo de identificadores únicos dos recursos
- A publicação dos dados das chaves dos recursos que depois de hashed ou
calculadas de outra forma devem representar os recursos em causa
- A definição de estruturas de metadados para autenticação ou prova
2) Métodos confidenciais que envolvem o encobrimento de alguns dados do
recurso
- Marcas de água
- Esteganografia
- Assinaturas digitais
3) Métodos funcionais que empregam tecnologias específicas em conjunto
com os recursos
- Encapsulação tanto física como lógica
- Encriptação
- Inserção de agentes
Cada uma destas tecnologias ultrapassa os problemas da autenticação de recursos. Deve
subsistir um ambiente tal que seja seguro e dê garantias de integridade e autenticidade de
um recurso recuperado em determinado momento, depois de migrado de plataforma em
plataforma.
47
3. QUADRO TEÓRICO DE REFERÊNCIA
Peter Hirtle em 200080 apresenta um interessante exemplo de autenticidade da era prédigital com evidente extensão aos novos paradigmas: os estudos de verificação de autenticidade da fragata “Constellation”, considerada durante décadas como datada de 1797, na
cidade de Baltimore nos EUA. As provas da sua autenticidade foram forjadas e em 2000
encontravam-se no domínio forense e eram matéria de investigação para o FBI.
A analogia do tradicional ao digital é usada por Hirtle op. cit. que não deixa de referir que
para interpretar documentos de arquivo é necessário compreender a natureza do ambiente
de arquivo, pois um conjunto de artefactos históricos não consubstancia um arquivo. Um
arquivo é, segundo ele, um corpo orgânico, contextualizado, não uma simples colecção de
artefactos. Os arquivos existem unicamente quando se verifica uma contínua cadeia de
custódia dos documentos, de âmbito organizacional, desde a sua criação até ao seu depósito.
Vamos encontrar ainda em Hirtle, op. cit. referência a algumas iniciativas no âmbito da autenticidade dos recursos digitais de arquivo:
“Functional requirements for evidence in recordkeeping”81 – Projecto que
decorreu entre 1992 e 1996 e que desenvolveu requisitos funcionais para
a Universidade de Pittsburgh. David Bearman, consultor deste projecto
propôs um conjunto de requisitos de metadados adaptados a várias áreas
do conhecimento, consoante as necessidades das comunidades envolvidas. O objectivo era criar registos constituídos por metadados encapsulados, por forma a que a autenticidade, a integridade, a confiança e a usabilidade dos conteúdos estivessem garantidas.
Projecto conjunto da “University of British Columbia” e da InterPARES (International Research on Permanent Authentic Records in Electronic Systems), subordinado ao título : “Preservation of the integrity of electronic
records”82. Decorreu entre 1994 e 1997. A equipa de trabalho liderada por
Luciana Duranti83 constituiu-se por grupos em diversas localidades geográficas : Australia, Canadá, China, União Europeia, Itália, Estados Unidos
e ainda um grupo de interesses corporativos industrial. O projecto incidiu
na via da Diplomática e nas suas conclusões considera requisito essencial
para assegurar a autenticidade ao longo do tempo que as operações de
80
81
82
83
HIRTLE, Peter B. (2000) - Archival authenticity in a digital age. In: Authenticity in a digital environment. Washington, CLIR, p. 8-21.
http://web.archive.org/web/19981203042506/www.sis.pitt.edu/~nhprc/
http://www.cc.ubc.ca/ccandc/feb96/email.html
http://www.interpares.org/UBCProject/intro.htm
48
3. QUADRO TEÓRICO DE REFERÊNCIA
rotina de transferência de ficheiros para uma terceira parte, neutral, confiável, com competência para garantir autenticação, sejam feitas por analogia com a arquivologia tradicional.
O projecto InterPARES, que publicou os seus resultados em 200284 em relatório subordinado ao título “The long term preservation of authentic electronic records” conduzido de 1999
a 2001, também baseou as suas conclusões na Diplomática contemporânea.
Diz-nos Luciana Duranti em 200185 que este projecto se destinava a desenvolver conhecimento teórico e metodológico essencial para a preservação permanente de registos autênticos gerados ou mantidos electronicamente. Baseados no conhecimento adquirido seriam
capazes de formular políticas e estratégias e propor o estabelecimento de padrões capazes
de assegurar preservação digital de longo prazo.
No âmbito deste projecto foi estudada a criação de um enquadramento conceptual para o
estabelecimento de requisitos para preservação de recursos digitais autênticos. Não obstante, subsistem muitas questões em aberto para posteriores investigações.
Destaca-se a área do desenvolvimento tecnológico onde, entre outras, as assinaturas digitais para autenticação de recursos são causa de grande apreensão na área da gestão da
preservação digital de longo prazo.
3.5.3. Autenticação
Seguimos a definição de autenticação encontrada no relatório do projecto InterPARES, referenciado atrás86: A autenticação é estabelecida através de uma declaração de autenticidade de um registo num determinado momento por uma entidade juridicamente responsável pela emissão dessa declaração.
Segundo Bearman, 199887 a autenticação está relacionada unicamente com permissões de
acesso.
Partindo do princípio de que as entidades oficiais são responsáveis pelo aparecimento de
grande parte dos recursos que se destinam a incorporar depósitos credenciados visto que
são criadoras de princípios legais, registam actos de tribunais, etc, a autenticação destes é
fundamental num ambiente seguro e confiável.
84
85
86
87
http://www.interpares.org/book/index.cfm
DURANTI, Luciana (2001) – The long term preservation of authentic electronic records. In : APERS,
M. G. et al. (eds.): VLDB 2001, Proceedings of 27th International Conference on Very Large Data
Bases, September 11-14, 2001, Roma, Italy. Morgan Kaufman, ISBN 1-55860-804-4
http://www.interpares.org/book/index.cfm
BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement
of requirements in the research process. D-Lib Magazine, June
49
3. QUADRO TEÓRICO DE REFERÊNCIA
Para que este ambiente exista, a política de acesso deve basear-se em infraestruturas de
chaves públicas, assinaturas digitais, encriptações, etc.
As assinaturas digitais são exemplo das tecnologias de autenticação que têm sido desenvolvidas no sentido de assegurar que as comunicações electrónicas através de redes e da
Internet em particular possam ser consideradas seguras.
As assinaturas digitais que identificam o assinante de determinado recurso e verificam se
não houve alterações durante a transmissão, podem constituir um dos métodos de autenticação mas são não por si só suficientes para estabelecer a autenticidade do recurso a
longo prazo.
Arne Ansper et al. em 200188 apresentam uma proposta de autenticação de assinaturas
digitais de longo prazo baseada na assunção de que é válida toda a assinatura criada antes
do certificado de validação ter sido revogado. Na figura 1 reproduzimos o modelo de serviço de notário proposto por estes autores, na qual estão envolvidas cinco partes :
(1) Uma autoridade certificadora que atesta que as chaves públicas estão
ligadas aos seus detentores
(2) Um assinante que depois de obter uma chave pública certificada pela
entidade certificadora cria uma assinatura digital
(3) Uma terceira parte interessada, a qual recebe uma assinatura digital do
assinante e que tem interesse que esta mantenha valor probatório
(4) Um notário que representa um serviço de confirmação da validade da
assinatura num determinado momento
(5) Um juiz que vai julgar, em determinado momento se a assinatura é ou
não válida
Vejamos esquematicamente como funciona:
50
3. QUADRO TEÓRICO DE REFERÊNCIA
Parte
Autoridade
certificadora
Certificado
Validação da informação
Assinatura,
interessada
Confirmação
Certificado
Assinatura,
Certificado
Assinatura digital
Assinante
Notário
Juíz
Fig. 1. - Modelo de validação de assinaturas (Ansper, 2001, op. cit.)89
Este modelo vai permitir que o assinante, perante qualquer suspeição, revogue o certificado e a chave pública permite em tempo útil informar todas as partes da revogação da assinatura.
No ambiente académico, uma forma de autenticar dados é através de “peer review”. É um
processo utilizado pela casas editoras mais importantes de publicações periódicas em formato digital, mas que também já existia para o suporte papel. É condição para publicação
de um artigo científico que este seja avalizado, referendando-se, assim, a sua mais valia
científica por peritos internacionais na área temática.
Os habituais criadores de conteúdos na Internet, tanto singulares como colectivos, nem
sempre se preocupam com as múltiplas versões dos seus trabalhos e na maior parte das
vezes não é possível determinar qual é a versão mais recente ou mais actualizada, nem
mesmo determinar a sua autenticidade, dado que nem foram autenticados por nenhuma
autoridade certificadora.
Meg Bellinger, em relatório da OCLC90 diz-nos que esta organização está interessada em
discutir a adaptação de software de autenticação a partir de uma terceira parte.
88
89
90
ANSPER, Arne et al. (2001) - Efficient long-term validation of digital signatures. Lecture Notes in
Computer Science, 1992.
ANSPER, A et al. (2001) – Op. cit.
BELLINGER, Meg (2002) - Understanding digital preservation : a report from OCLC. CLIR
51
3. QUADRO TEÓRICO DE REFERÊNCIA
Este software tem as funções de um notário público digital, tal como o modelo de Ansper
et al., 200191 que vimos anteriormente. O criador do recurso digital usa o software para
incluir uma assinatura digital e uma marca temporal. Essa informação é enviada à empresa
que detém o software de autenticação para preservação de longo prazo. O serviço também
regista alterações de detenção de direitos e verifica ulteriormente a sua autenticidade e
proveniência dos recursos.
É também de assinalar a importância que têm nesta matéria identificadores persistentes
tais como os PURL (Persistent Uniforme Resource Locator) ou DOI (Digital object identifiers). Estes, por serem atribuídos uma única vez, são mais um elemento a utilizar como
meio de segurança e autenticação de recursos digitais.
Em trabalho de Polivy & Tamassia, 200292, vamos encontrar uma proposta de solução para
a autenticação de recursos digitais muito complexos, que agregam informação de diferentes fontes, tais como boletins meteorológicos, notícias de jornais, preços de determinadas
mercadorias, etc, e os disponibiliza aos seus utilizadores.
Essa proposta intitula-se “Authenticated dictionary” e existe no âmbito do STMS (Secure
Transaction Management System) (Tamassia 2001)93.
O STMS é um sistema distribuído de autenticação de dados constituído por uma estrutura
de dados que suporta interrogações de utilizadores autorizados. Quando um utilizador interroga um STMS, é devolvida uma resposta e também uma prova da autenticidade dessa
resposta. A prova pode ser da responsabilidade do STMS ou pode ser encontrada através
de um qualquer repositório credenciado.
A novidade é a abordagem de assinaturas XML (Bartel, 2002)94. O standard de assinaturas
digitais XML comporta um conjunto de normas e sintaxe XML para codificar, processar e
verificar assinaturas digitais de dados arbitrários. Adicionalmente fornece autenticação e
testa a integridade dos dados. Uma característica fundamental da assinatura XML é a sua
capacidade de assinar somente partes específicas da árvore XML em vez da totalidade do
documento. Esta característica torna-se importante quando existem várias peças de informação agregadas provenientes de diferentes fontes, cada qual com as suas características
de autenticação.
91
92
93
94
ANSPER, A. et al. (2001) – Op. cit.
POLIVY, Daniel J. & TAMASSIA, Roberto (2002) - Authenticating distributed data using web services and XML signatures. Proc. ACM Workshop on XML Security, ACM Press, 2002 (em publicação)
TAMASSIA, Roberto (2001) – Efficient low-cost authentication of distributed data and transactions.
Conduit 10 (2)
BARTEL, J., et al. (2002) – Sygnature syntax and processing. : W3C Recommendation. February.
52
3. QUADRO TEÓRICO DE REFERÊNCIA
Apresentamos duas figuras extraídas do mesmo trabalho de Bartel95, a primeira reporta-se
ao serviço STMS (Secure Transaction Management Systems) e a outra é um exemplo de
uma assinatura XML associada com uma resposta STMS.
Fig. 2 – Arquitectura STMS (Polivy & Tamassia, 2002)
95
BARTEL, J., et al. (2002) – Op. cit.
53
3. QUADRO TEÓRICO DE REFERÊNCIA
Fig. 3 – Codificação XML do documento base e da prova (Polivy & Tamassia, 2002)
Existe uma grande actividade de desenvolvimento de metodologias para combater os problemas inerentes à integridade, autenticidade e autenticação de recursos digitais.
Determinar quais os melhores métodos para determinados fins só é possível se os requisitos funcionais para a autenticidade forem seguidos por parte dos criadores e utilizadores
potenciais.
Não existe uma solução única, devem ser tidos em conta os vários requisitos de autenticidade i.e., durante todo o ciclo de vida dos recursos digitais devem ser respeitadas todas as
normas e seguidos todos os padrões no que diz respeito à existência de chaves públicas e
privadas, marcas de água, encriptações, identificadores persistentes, declarações de autenticação, etc.
A tecnologia padronizada e disponível deve ser utilizada no sentido de tentar impedir perdas, por ausência de capacidade de reconhecimento de autenticidade, de informação que
pode ter características probatórias ou que pode ainda vir a tornar-se historicamente importante.
3.6. ESTRATÉGIAS DE PRESERVAÇÃO DIGITAL
Os documentos produzidos em suporte papel não ácido, com boas tintas vegetais e armazenados em ambiente frio, seco e escuro podem, provavelmente, subsistir durante mais de
mil anos.
54
3. QUADRO TEÓRICO DE REFERÊNCIA
Os documentos digitais, armazenados em qualquer suporte electrónico ou magnético, estarão provavelmente irrecuperáveis dentro de 10 anos. O suporte físico deteriora-se, o hardware desaparece do mercado, o software de interpretação da informação é descontinuado
ou simplesmente já tiveram lugar várias gerações e há, assim, perdas sucessivas de informação. Torna-se, deste modo necessário, transferir regularmente os recursos digitais
para novas plataformas.
Seja qual for a estratégia escolhida, o principal objectivo da preservação de longo prazo é
assegurar a longevidade e a manutenção da integridade intelectual dos recursos digitais
(Grout, Purdy and Rymer >2000)96.
Existem caminhos distintos para contornar os problemas da obsolência tecnológica e segundo o Digital Preservation Testbed White Paper, 200197 consolidaram-se, hoje em dia,
várias estratégias :
3.6.1. Preservação tecnológica e impressão em papel
Uma das primeiras opções a ser usada foi a preservação tecnológica dos meios de acesso
aos recursos originais por tanto tempo quanto o necessário.
Esta opção estratégica obriga a que tanto o hardware como o software sejam mantidos em
boas condições para que sempre que seja necessário aceder aos recursos criados nesse
ambiente a resposta seja efectiva.
A preservação tecnológica é considerada bastante dispendiosa e tecnologicamente complexa pois é indispensável manter competências para operar com os sistemas que se vão tornando obsoletos. A acrescentar aos problemas de obsolência existe o risco de descontinuidade no fabricante.
Apesar de na prática ainda ser uma opção utilizada por muitas organizações, podemos
considerá-la em declínio.
A opção da impressão em papel, tal como a preservação tecnológica continua a ser usada
apesar de não ser viável para muitos recursos digitais. Quando os recursos a preservar são
texto, gráficos, fotografias ou outros formatos passíveis de reprodução em papel podemos
encontrar organizações que recorrem a essa estratégia.
96
97
GROUT, Catherine, PURDY, Phill & RYMER, Janine (>2000) - Creating digital resources for the visual arts : standards and good practice. AHDS/VADS, Guides to good practice
DIGITAL PRESERVATION TESTBED WHITE PAPER (2001) – Migration : context and current status.
ICTU
55
3. QUADRO TEÓRICO DE REFERÊNCIA
No que diz respeito a bases de dados ou recursos multimédia existe a incapacidade de preservar certas características tais como movimento, som, fórmulas, estruturas de informação, etc.
3.6.3. Emulação
Trata-se de utilizar tecnologias actuais e sobre elas reconstituir as funcionalidades e o ambiente de tecnologias que, entretanto, se tornaram obsoletas.
Por meio da emulação é possível aceder à cópia exacta do recurso original e do seu ambiente e ter a consequente sensação do look-and-feel. Por exemplo, o hardware de um
Commodore C-64 pode ser emulado num processador Pentium. Da mesma maneira o sistema operativo pode ser instalado nesse ambiente virtual o que permite que o processamento do software original corra normalmente.
Os defensores desta estratégia advogam que talvez seja a única solução capaz de preservar um documento na sua forma original a longo prazo (Rothenberg, 1999)98, dadas as
múltiplas actualizações tecnológicas a que as instituições inevitavelmente se submetem.
Como pré-requisito de qualquer actividade de preservação por emulação deve existir uma
descrição da tecnologia usada durante a criação do recurso. Por conseguinte, como boa
prática, devem ser encapsulados:
O recurso digital propriamente dito acompanhado pelo software ou softwares que o contextualizam, incluindo o sistema operativo, as aplicações e
quaisquer outras informações consideradas necessárias
As especificações sobre o emulador a usar no sistema futuro por forma a
fornecer informação para a recriação da plataforma original. Deve incluir
uma descrição do software, um histórico do ciclo de vida do recurso digital
e quaisquer outros elementos considerados necessários
A emulação pode ter lugar a dois níveis, ao nível do software e ao nível do hardware.
O primeiro diz respeito ao ambiente do software que deve ser recriado para aceder aos
recursos. Esse objectivo pode ser atingido emulando a aplicação original e o sistema
operativo onde a aplicação corre. Existe no entanto alguma dificuldade para descrever
aplicações de forma a que possam ser reproduzidas posteriormente. Este problema
complica-se bastante quando pensamos em multimédia e hipermédia (Granger, 2000)99,
conceitos que estão, eles próprios em actualização constante.
98
99
ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR (Expanded version)
GRANGER, Stewart (2000) - Emulation as a digital preservation strategy. D-Lib Magazine, 6 (10)
56
3. QUADRO TEÓRICO DE REFERÊNCIA
Existe ainda a possibilidade de emular o ambiente de hardware emulado em software através de informação detalhada acerca das suas características. Segundo Lawrence et al. em
2000100, para que a emulação tenha sucesso é necessário criar um conjunto formado por :
o ficheiro a preservar,
a aplicação que deu origem ao ficheiro,
o sistema operativo onde a aplicação corria,
o ambiente de hardware emulado em software usando informação detalhada acerca das suas características.
Podemos considerar esta estratégia bastante complexa e difícil de implementar na prática,
dado o leque variado de necessidades efectivas a preencher e que na maior parte das vezes não é possível atingir.
3.6.4. Migração
Trata-se de transportar os recursos digitais de uma plataforma para outra, adaptando-os
aos ambientes de chegada, de cada vez que hardware e/ou software se tornam obsoletos
ou em antecipação a essa própria obsolência.
É vulgar que estes processos, que provocam sempre alguma reescrita dos recursos transportados, introduzam particularidades novas susceptíveis de serem interpretadas como
corrupção do seu estado original.
Dado o curto período de vida útil das tecnologias não é raro a preservação implicar a submissão dos recursos a migrações múltiplas, com perdas crescentes das suas características originais. Neste caso é frequente a observação de corrupções cumulativas que podem
alterar substancialmente a sua aparência original, estrutura, interactividade e look-and-feel
(Rothenberg, 2000)101.
Em alguns casos a transferência de formatos raros torna-se impossível e pode sobrevir a
perda total dos recursos. É o caso de algumas formas de arte interactiva (Aschenbrenner,
op. cit.)102. Outro exemplo, este bastante mais corrente, é a simples migração de ficheiros
do tipo Word ou Excel para versões mais actuais onde por vezes se alteram certas funcionalidades e características de layout.
100
101
102
LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format investigation. CLIR
ROTHENBERG, Jeff (2000) - An experiment in using emulation to preserve digital publications.
Den Haag, Koninklijke Bibliotheek. 70 p. ISBN 9062-59-1442
ASHENBRENNER, A. (2001) – Op. cit.
57
3. QUADRO TEÓRICO DE REFERÊNCIA
Segundo Paul Wheatley em 2001103 só existe uma forma de evitar este risco que é o processo de migração reversível proposto pelo modelo OAIS (Open Archive Information System)104,105, como um dos tipos de migração possível de implementar e que são :
1) Refrescamento – operação realizada quando se copia a partir de um suporte para
outro idêntico, o que, em princípio, não danifica o conteúdo
2) Cópia – operação de réplica para outro ou para o mesmo suporte
3) Reempacotamento106 – A migração envolve reempacotamento quando existem alterações durante o empacotamento
4) Transformação – A migração que acarreta alteração do conteúdo da informação é
referida no modelo OAIS como transformação e pode ser:
(a) reversível - Diz-se quando uma nova representação define um conjunto ou subconjunto de novas entidades que são equivalentes às definidas
pela representação original. Isto quer dizer que existe a possibilidade de
um movimento à retaguarda, passo a passo, até à representação original.
P. ex. uma representação que usa o código ASCII de A a Z substituída por
uma representação que usa o código UNICODE UTF-16 de A a Z. Esta
transformação resulta numa substituição do código de 7-bit pelo de 16-bit.
A operação inversa é conseguida se substituirmos
o código UNICODE
UTF-16 de A a Z pelo ASCII de A a Z. Neste caso o original é recuperado.
(b) não reversível – Diz-se quando não é possível reverter com eficácia
toda a operação de transformação. Esta ocorrência pode dar-se quando as
entidades resultantes não são semanticamente equivalentes.
Na gestão dos repositórios é de toda a conveniência que se adopte um pequeno número de
padrões de aceitação para os quais de deve proceder a conversão de todos os recursos
capturados. Por esta via conseguir-se-á a diminuição drástica dos esforços futuros de migração. Formatos padrão são p. ex: ASCII para texto, TIFF para imagens e PostScript para
apresentação do layout. Uma animação muito sofisticada poderá ser preservada a partir de
uma série de screen-shots (Aschenbrenner, op. cit.). Como consequência, serão necessários menos conversores em qualquer dos ciclos de conversão.
103
104
105
106
WHEATLEY, Paul (2001) – Migration : a CAMiLEON discussion paper. Ariadne, 29
O modelo conceptual de referência OAIS é abordado no ponto 4.1.5 desta dissertação
http://wwwclassic.ccsds.org/documents/pdf/CCSDS-650.0-B-1.pdf
Os termos empacotamento e reempacotamento fazem parte da terminologia própria do modelo
conceptual OAIS
58
3. QUADRO TEÓRICO DE REFERÊNCIA
Outro aspecto a considerar é a existência de formatos proprietários que limitam o acesso
ao software e que aduzem constrangimentos legais.
Uma vantagem da migração é o rápido acesso ao recurso. Dado que o formato é standard
em qualquer altura o documento pode ser acedido. Na maior parte dos casos a conversão
dos recursos digitais dá-se em circunstâncias tidas como suficientes pela comunidade de
utilizadores, mesmo com perda de algum look-and-feel.
3.6.5. Encapsulação
A estratégia da encapsulação tem como objectivo a preservação do formato original. A linguagem XML é tida como capaz de assegurar o encapsulamento dos metadados e das instruções necessárias à interpretação do original, sendo possível combiná-la com outras estratégias, como é o caso da emulação107.
Na presença da existência de uma colecção de metadados previamente determinada, estes
podem ser expressos na forma de esquema XML que pode ser reutilizado em colecções de
recursos que correspondam a essas especificações. Esta normalização torna-se importante
na medida em que facilita o trabalho do repositório digital na opção por esquemas de metadados.
Na Austrália, encontramos o projecto VERS (Victorian Electronic Records Strategy) que implementou esta estratégia com sucesso e no seu relatório final108 apresenta as seguintes
conclusões:
Os recursos, o contexto e informação de autenticação devem ser encapsulados num único objecto e não separadamente
A estrutura dos dados deve permitir a inclusão de metadados em camadas
A linguagem XML deve ser usada para codificação dos recursos a depositar
Cada recurso deve apresentar uma assinatura digital
3.6.6. Software Máquina Virtual (UVC - Universal Virtual Computer)
Opção tida como variante da emulação proposta por Raymond Lorie da IBM em trabalho
conjunto com a Biblioteca Nacional da Holanda (Koninklijke Bibliotheek) em 2001109,110.
107
108
109
110
Digital Preservation Testbed Project (2002) – XML and digital preservation.
http://www.prov.vic.gov.au/vers/published/final.htm
LORIE, R. A. (2001) The long term preservation of digital information. RLG DigiNews. 5 (3)
IBM/KB (2001) – Long term preservation study. DNEP.
59
3. QUADRO TEÓRICO DE REFERÊNCIA
Consiste num software que é aplicado a um recurso no momento do depósito, gerando um
programa executável do qual consta a descrição de todas as características do recurso. Recurso e executável são preservados em conjunto. Este executável deve posteriormente
correr num ambiente de interpretação próprio software UVC (Universal Virtual Computer)
que proporciona a reconstituição do original.
A estratégia UVC pode abranger o depósito de programas no sentido do desenvolvimento
de emuladores mesmo no desconhecimento da máquina alvo. Ao invés de depositar o fluxo
de bits e o programa que o descodifica, devem ser depositados o programa original em
conjunto com um emulador da máquina, escritos em linguagem UVC, e também qualquer
ficheiro de dados que seja necessário para correr a aplicação original. Os metadados devem fornecer explicações quanto à forma de correr o programa.
Segundo Lorie, 2001, op. cit, através desta estratégia pretende-se diminuir a dependência
de normas. Ao escrever para cada novo formato um programa UVC que o descodifique assegurará segundo este autor a preservação dos dados para o futuro.
3.6.7. XML (Extensible Markup Language)
A linguagem XML pode ser vista como um tipo particular de migração.
É uma linguagem de enriquecimento de informação sobre estruturas e significado. Sendo
independente da plataforma onde vai correr é um padrão aberto. Favorece a interoperabilidade e pode ser usado como formato de criação de documentos. Pode considerar-se como
uma estratégia de preservação por si só.
Por vezes a opção XML e o formato PDF são considerados como disputando o mesmo território para a preservação a longo prazo, mas como, na verdade, são bastante complementares será mais apropriado orientar a estratégia pela utilização dos dois do que optar por
um único111 e desta maneira o risco de perda diminui.
Mas existe uma opção estratégica ?
No contexto de um repositório digital que periodicamente tem que gerir conversões de dados e migrações de hardware para fazer face a obsolências e desactualizações o objectivo
é a preservação da totalidade do conteúdo da informação de cada recurso, por vezes incluindo o look-and-feel, a substituição do velho pelo novo e o controlo total das operações de
transferência.
111
Digital Preservation Testbed Project (2002), op. cit.
60
3. QUADRO TEÓRICO DE REFERÊNCIA
Ao optar pela estratégia da migração o repositório fica impossibilitado de saber o que deixa
em herança. É impossível prever quantas vezes vai ser necessário migrar.
Os standards podem ter uma vida curta no ambiente digital. Cabe também referir que o
nível de corrupção depende em grande parte das boas práticas seguidas durante a criação
dos recursos digitais a preservar, e também das técnicas de reparabilidade usadas e dos
metadados que as documentam.
Os pontos críticos da migração estão relacionados com o muito trabalho que acarreta, a
morosidade do processo, o alto custo devido às sucessivas migrações, a ausência de escalabilidade, a perda da forma original e a corrupção do look-and-feel.
A opção estratégica da emulação por outro lado torna-se polémica e motivo de discussão
científica como podemos verificar no trabalho de Granger, 2000 atrás citado 112, onde este
autor questiona as opções de Rothenberg aparecidas em 1999113.
Também Lawrence et al. (op. cit.)114 considera que não existe sistema capaz de manter os
emuladores - manter emuladores obsoletos torna-se tão problemático como manter ficheiros em formatos obsoletos.
O projecto CAMiLEON (Creative Archiving at Michigan and Leeds)115 tem como objectivo,
precisamente, aplicar a estratégia da emulação à preservação digital de longo prazo.
Também o projecto NEDLIB (Networkd European Deposit Library)116 manifesta a intenção
de promover o desenvolvimento do estudo da emulação como tecnologia a aplicar.
Digamos que, antes de 2000-2001, a emulação teve expressão nalguns projectos, mas a
Biblioteca Nacional da Austrália117 manifesta a intenção de fazer aplicar ambas as estratégias, migração e emulação e à medida que os resultados forem surgindo e a experiência
aumentar talvez seja possível optar, consoante as variáveis envolvidas, por uma ou outra,
ou pela aplicação de ambas.
Mesmo que o look-and-feel dos recursos tenha sido alterado durante o processo de preservação esse facto pode não ser relevante para as necessidades dos utilizadores. Cabe-nos
por isso atender à natureza dos recursos e às necessidades das comunidades de utilizadores do nosso tempo para podermos projectá-las para as comunidades do futuro.
112
113
114
115
116
117
GRANGER, S. (2000) – Op. cit.
ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR (Expanded version)
LAWRENCE, et al. (2000) – Op. cit.
http://www.si.umich.edu/CAMILEON
http://www.kb.nl/coop/nedlib/results/NEDLIBemulation.pdf
http://www.nla.gov.au/preserve/pmeta.html
61
3. QUADRO TEÓRICO DE REFERÊNCIA
Seja qual for a estratégia a desenvolver pelo repositório digital, o seu desempenho só terá
sucesso se forem seguidas boas práticas e se a criação de metadados de preservação estiver prevista ao longo de todas as fases do ciclo de vida do recurso digital.
3.7. METADADOS DE PRESERVAÇÃO DE LONGO PRAZO
Definimos metadados de preservação de longo prazo como informação de apoio aos processos associados com a preservação digital de longo prazo.
Em ambiente digital, os recursos digitais sofrem transformações, cujos resultados nem
sempre são fáceis de controlar, motivo pelo qual deve ser criado um histórico da mudança
ao longo do tempo com o objectivo, entre outros, de garantir que os mecanismos que
atestam a autenticidade e a integridade dos mesmos possam ser recompostos. De igual
maneira, as tecnologias de acesso aos recursos digitais rapidamente se tornam obsoletas e
por isso haverá que encapsular informação acerca dos suportes de armazenamento, hardware, sistema operativo e respectivos softwares utilizados durante o ciclo de vida dos recursos.
Os metadados de preservação devem armazenar informação técnica e administrativa sobre
decisões e acções de preservação, registar os efeitos das estratégias de conversão de dados, assegurar a autenticidade dos recursos digitais ao longo do tempo e registar informação acerca de gestão de colecções e de direitos.
Em Borbinha (2001)118, encontramos referidos um conjunto de objectivos para os metadados, que são :
Descrição bibliográfica dos recursos
Gestão administrativa dos recursos
Preservação dos recursos
Descrição estrutural e técnica dos recursos
Acesso, uso e reprodução dos recursos
Gestão administrativa dos próprios metadados
Do estrito ponto de vista da preservação digital de longo prazo, apesar de todos os objectivos apresentados serem indispensáveis à boa gestão dos recursos antes e depois de depo-
118
BORBINHA, José (2001) - Metadata – Conceito e sua relevância para as bibliotecas. Actas do 7º
Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas. Porto, 2001
62
3. QUADRO TEÓRICO DE REFERÊNCIA
sitados num repositório, interessa-nos, particularmente, o objectivo de dar informação
acerca dos requisitos e condições, técnicas ou formais de preservação de longo prazo.
Segundo o “OCLC/RLG Working Group on preservation metadata”119 as características fundamentais dos metadados de preservação são as seguintes:
Abrangência,
i.e.,
devem
ser
constituídos
por
todos
os
requisitos
informacionais necessários à gestão de um repositório desde a sua
inclusão até à sua disponibilização e acesso.
Estruturação, ou seja, devem apresentar uma descrição de alto nível dos
componentes chave do sistema e das suas funcionalidades. Este ponto
vem complementar o primeiro.
Aplicação alargada, i.e., os metadados de preservação devem poder aplicar-se a um leque variado de tipos de recursos digitais, de actividades e
de instituições. Uma estrutura de metadados de preservação representa o
consenso de um grupo de trabalho e deve ser imparcial sobre assuntos relacionados com as opções de estratégias de preservação.
Referindo-nos ao ciclo de vida dos recursos e à fase da criação, é importante que da parte
dos repositórios se alertem os criadores para a inserção dos metadados necessários.
Damos como exemplo as linhas orientadoras da AHDS (Arts and Humanities Data Service)
para os produtores de modelos em CAD120.
Enquanto o trabalho está em mãos é muito mais fácil recordar os passos dados para construir o modelo. A documentação produzida ajudará tanto os próprios membros da equipa
de trabalho como no futuro será uma componente vital no processo de preservação a longo prazo. É desnecessária uma documentação exaustiva de todo o processo criativo mas
fundamental documentar algumas fases do processo dado que cada projecto pode conter
um número alargado de modelos.
Assim, para cada projecto devem ser fornecidos metadados que contenham:
Uma descrição alargada, em diagonal, de todo o projecto
Métodos e normas usados no projecto
119
120
OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital
objects : a review of the state of the art : a white paper
EITELJORG II, Harrison et al. (2002) - Archaeology Data Service CAD : A Guide to Good Practice.
AHDS
63
3. QUADRO TEÓRICO DE REFERÊNCIA
Descrição individualizada dos modelos no projecto
Para cada projecto deve ser fornecida uma lista dos ficheiros criados que deve incluir :
Nome do ficheiro
Data de criação ou da última actualização
Formato dos dados e número da versão utilizada
Descrição do conteúdo
Copyright associado
De igual modo para cada modelo os criadores devem também dar a conhecer informação
sobre os modelos através de:
Título do projecto
Número de referência
Criador
Título do modelo CAD
Software CAD
Ficheiros usados
E ainda informação para algumas bases de dados associadas, que deve incluir :
Título do projecto
Referência do projecto
Base de dados c/ versão e tipo
Título das tabelas ou ficheiros, assim como número de referência
Campos da tabela
Título do ficheiro CAD que está associado à BD
Formato do ficheiro
Data de criação da BD
64
3. QUADRO TEÓRICO DE REFERÊNCIA
Sem a ajuda destes elementos de metadados não será possível reconstruir os modelos
posteriormente.
Cabe desta forma a cada repositório encaminhar os depositantes para uma conduta baseada no seguimento de boas práticas e verificar no acto de depósito se estas foram cumpridas.
3.7.1. Comunidades temáticas e respectivas necessidades de metadados
Os inúmeros repositórios de preservação de recursos digitais de longo prazo existentes
têm sido construídos seguindo as necessidades de determinadas comunidades temáticas.
Estas, face à consciência da existência real de perigo da perda de dados científicos de interesse nacional estratégico, desenvolveram os seus próprios modelos de repositórios que
desempenham bem as respectivas funções, mas que dado o seu âmbito restrito contêm
limitações, se usados por comunidades de outros domínios temáticos.
Em CCSDS, 2002121 encontramos referência às exigências de metadados a que estão sujeitos os depositantes de alguns repositórios temáticos que passamos a descrever sucintamente
Planetary Data System Archive122
Trata-se um repositório americano, distribuído, que serve a comunidade da NASA relativa
a ciências planetárias.
É constituído por um nó central no Jet Propulsion Laboratory e por sua vez outros nós de
subdivisão temática, para as geociências, atmosfera, interacções planetárias de plasma,
etc. Estes nós estão distribuídos por universidades em todo o país. Os interessado em depositar recursos neste espaço de preservação são obrigados a seguir linhas orientadoras.
Os metadados que acompanham os dados no acto de admissão no repositório são cuidadosamente comparados com os elementos que constam de uma lista de terminologia agregada ao sistema. Também podem ser acrescentados novos elementos se for considerado
oportuno.
Os metadados base para constituição do repositório constam dos seguintes ficheiros :
- AAREADME.TXT : texto resumido do conteúdo dos dados
- VOLDESC.SFD : etiquetas normalizadas dos pacote de dados
121
122
Consultative Committee for Space Data Systems (2002) – Reference Model for an Open archive
Information System (OAIS), Blue Book (CCSDS 650.0-B-1)
http://pds.jpl.nasa.gov/pds-cn-homepage.html
65
3. QUADRO TEÓRICO DE REFERÊNCIA
- VOLINFO.TXT : descrição do conteúdo dos dados
- CATALOG : DATASET.CAT. MISION.CAT, INST.CAT
- INDEX : índice ASCII cobrindo a granularidade de cada pacote de dados
- SOFTWARE : software necessário para interpretar e visualizar os dados
- CALIB : conjuntos de calibração de dados
- BROWSE : permite percorrer a lista dos recursos em cada pacote de dados.
O acesso é possível através de CDs distribuídos a toda a comunidade. Também é possível
aceder via Internet a grande parte dos recursos.
National Archives and Records Administration´s (NARA)123
Este repositório preserva e dá acesso a recursos digitais no âmbito do governo federal dos
EUA. A comunidades de utilizadores é tão ampla quanto os conteúdos o permitem.
Antes de serem integrados no repositório são criados metadados que incluem a origem, a
criação, as características dos dados e os desenvolvimentos administrativos. O NARA captura ainda para uma base de dados, com o objectivo de uma posterior verificação automática, metadados acerca dos domínios, das ligações e dos layouts.
Da mesma maneira, outros metadados criados pelo pessoal do NARA incluem descrições
das colecções, resumos, listas de títulos, etc.
Life Sciences Data Archive (LSDA)124
A comunidade alvo deste repositório é constituída por investigadores no âmbito das ciências da vida no espaço. O LSDA contém dados referentes a experiências biológicas com animais, plantas e pessoas em ambientes fora da Terra em voo.
Os metadados são os que acompanham originalmente os dados. Excepcionalmente serão
acrescentados outros no caso de existir obsolência dos suportes e ser necessário tranferilos para outros de nova geração.
123
124
http://www.archives.gov/
http://lsda.jsc.nasa.gov/
66
3. QUADRO TEÓRICO DE REFERÊNCIA
3.7.2. Sistemas de metadados aplicáveis à preservação digital
Analisamos, de seguida, alguns sistemas de âmbito mais genérico e que procuram
constituir um standard para a preservação digital, no domínio dos recursos mais ligados
ao mundo das bibliotecas e dos arquivos.
Dublin Core125
O Dublin Core é o formato de metadados para recursos digitais mais divulgado pois é passível de aplicação alargada a qualquer comunidade temática. Foi projectado tendo como
objectivo a recuperação dos recursos em HTML. Contém uma estrutura simples e flexível
aplicável a recursos complexos. Tem capacidade para ser representado através de variadas
sintaxes e podemos encontrar uma codificação para os elementos do Dublin Core em XML
usando RDF (Beckett, Miller & Brickley 2002)126.
Estabelecido no âmbito da OCLC/NCSA, é composto por um conjunto de 15 elementos padrão, permitindo a inclusão de elementos adicionais para atender às particularidades de
cada comunidade. Foi estabelecido por consenso de um grupo internacional e interdisciplinar de profissionais – bibliotecários, analistas, linguistas, museólogos, entre outros, e é
utilizado para descrever uma variedade de recursos existentes na Internet. Pode ser considerado como um meio de comunicação e de busca de informação para a Internet. O DC
tem sido adoptado por importantes instituições e também como padrão nacional em agências governamentais americanas. Apresentamos em seguida o conjunto de elementos definidos para aplicação pelo Dublin Core, 2002127:
Título - título dado ao recurso
Criador - entidade principal responsável pela elaboração do conteúdo do
recurso
Assunto - assunto referente ao conteúdo do recurso
Descrição - descrição do conteúdo do recurso
Editor – entidade responsável pela difusão do recurso
125
126
127
http://dublincore.org/
BECKETT, Dave, MILLER, Eric & BRICKLEY, Dan (2002) – Expressing simple Dublin Core in
RDF/XML. Dublin Core Metadata initiative.
DCMI (2002) – DCMI elements and element refinements : a current list. Dublin Core Metadata
initiative.
67
3. QUADRO TEÓRICO DE REFERÊNCIA
Outros responsáveis - entidade responsável por contribuições ao conteúdo
do registo
Data - data da criação ou de actividade de preservação no ciclo de vida do
recurso
Tipo - natureza ou género do conteúdo do recurso
Formato - manifestação física ou digital do recurso
Identificador - identificação única não ambígua do recurso
Fonte - referência a um outro recurso do qual deriva o presente
Língua - língua do conteúdo intelectual do recurso
Relação - referência para outro recurso do qual o presente recurso é derivado ou está associado
Cobertura - âmbito espacio-temporal do conteúdo do recurso
Direitos - Informação sobre os direitos legais do recurso e seu uso
Entre as várias organizações que aderiram à implementação de esquemas de metadados
baseados no Dublin Core podemos referir os exemplos da Networked Digital Library of
Theses and Dissertations128, do Nordic Metadata Project129, da Art, Design, Architecture &
Media Information Gateway and Visual Arts Data Service130, do CIMI (Consortium for the
Computer Interchange of Museum Information)131 e do CORC (Cooperative Online Resources Cataloguing)132.
EAD (Encoding Archiving Description)133
Mais vocacionada para a realidade arquivística encontramos a norma EAD que permite que
a norma ISAD(G) seja descrita numa DTD SGML. Esta norma é mantida no Network Deve-
128
http://www.ndltd.org
http://www.lib.heilsink.fi/meta/index.html
130
http://adam.ac.uk
131
http://www.cimi.org
132
http://purl.oclc.org/corc
133
http://lcweb.loc.gov/ead/
129
68
3. QUADRO TEÓRICO DE REFERÊNCIA
lopment and MARC Standards Office da Biblioteca do Congresso134 em parceria com a Society of American Archivists135 que é a sua proprietária.
O EAD descreve formalmente o modelo estrutural para um auxiliar de busca e ao mesmo
tempo fornece documentação de apoio. Esta documentação é composta por um conjunto
de etiquetas disponíveis para identificar as componentes lógicas dos auxiliares de busca.
Contém um glossário com a definição do significado das etiquetas, e a linguagem SGML
define a sintaxe para a utilização dessas mesmas etiquetas.
Os benefícios da utilização da linguagem SGML estão relacionados com :
A independência de plataformas de armazenamento - os recursos podem
ser recuperados através da utilização de qualquer equipamento e em
qualquer ambiente de software.
A validação - a estrutura de qualquer auxiliar de busca pode ser validada
contra o modelo definido na DTD do EAD para garantir que a norma está
bem implementada
A reutilização do recurso - um documento codificado em EAD pode ser
transformado numa grande variedade de formatos consoante as necessidades, é o caso de requisitos de ecrã ou de impressão
O processamento – Dado que as etiquetas da DTD EAD identificam conteúdos de informação do recurso, tais como datas, nomes de pessoas, etc,
em vez das características de apresentação do recurso, como tipo de letra,
tamanho dos tipos, etc, os conteúdos estão em condições de ser apresentados em qualquer formato ou trabalhados de forma a produzir outro tipo
de acções tais como p. ex., listas ordenadas.
O EAD possui uma variedade de ferramentas e ficheiros de ajuda para as aplicações SGML
e XML136.
De entre as instituições137 que, mundialmente, adoptaram o EAD como modelo de metadados podemos referir o IANTT (Instituto dos Arquivos Nacionais da Torre do Tombo)138.
134
135
136
137
138
http://www.loc.gov/marc/ndmso.html
http://www.archivists.org/
http://jefferson.village.virginia.edu/ead/products.html
http://jefferson.village.virginia.edu/ead/sitesann.html
http://www.iantt.pt/
69
3. QUADRO TEÓRICO DE REFERÊNCIA
METS (Metadata Encoding and Transmission Standards)139
O esquema de metadados METS é uma norma para codificação de metadados descritivos,
administrativos e estruturais de recursos digitais que utiliza a linguagem XML. A norma é
mantida pelo Network Development and MARC Standards Office da Biblioteca do Congresso140 e tem sido desenvolvida como uma iniciativa da DLF141 (Digital Library Federation).
Esta iniciativa pretende construir um formato XML para codificação de metadados necessários para a gestão de bibliotecas digitais no âmbito de repositórios e também para permitir
a permuta de recursos entre repositórios ou entre repositórios e utilizadores.
Dependendo da sua utilização, um documento METS pode ser usado como SIP (Submission
Information Package), como AIP (Archival Information Package) ou mesmo como DIP (Dissemination Information Package no âmbito do modelo de referência OAIS que estudaremos no ponto 4.1.5. Um documento METS é constituído por cinco secções :
1) Metadados descritivos – Esta secção pode consistir em apontadores
para esquemas externos de metadados tais como o formato MARC, através de um OPAC ou ajudas EAD através de um servidor WWW
2) Metadados administrativos – Fornecem informação acerca da fonte dos
dados e acerca da proveniência, da história do recursos (migrações, transformações, etc.)
3) Grupos de ficheiros – Lista dos ficheiros que compõem o recurso em todas as versões.
4) Mapa de estruturas – Estrutura hierárquica dos recursos digitais e das
ligações entre o conteúdo dos ficheiros e os metadados
5) Comportamento – Secção relativa a comportamento que pode ser usada
para associar comportamentos executáveis com o conteúdo de um recurso METS. Esta secção contém também um mecanismo modular de um código executável que implementa e instala comportamentos definidos abstractamente pelo interface.
O METS está a ser analisado como esquema de metadados a utilizar na Biblioteca Nacional
de Portugal.
139
140
141
http://www.loc.gov/standards/mets/
http://lcweb.loc.gov/marc/ndmso.html
http://www.diglib.org/
70
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Um repositório de recursos digitais confiável é aquele cuja missão consiste em fornecer
acesso a longo prazo a recursos digitais de uma designada comunidade no presente e no
futuro de forma permanente e garantida.
Neste capítulo vamos dedicar-nos a determinar os aspectos que atribuem confiabilidade
aos repositórios digitais com vista à sua implementação. Os objectos de estudo serão opções consideradas internacionalmente como paradigmáticas.
4.1. CONFIABILIDADE DE UM REPOSITÓRIO DIGITAL
Seja qual for a infraestrutura de base adoptada, para atingir os seus objectivos um repositório digital deve corresponder às seguintes expectativas:
Existir no âmbito de um sistema organizacional que assegure a viabilidade
a longo prazo do repositório e da informação digital que este pretende
preservar
Aceitar a responsabilidade da manutenção a longo prazo de recursos digitais no interesse dos depositantes e para benefício dos actuais e futuros
utilizadores
Demonstrar responsabilidade fiscal e base de sustentação
Desenhar o seu sistema de acordo com convenções e normas internacionais para que a gestão, o acesso e a segurança dos recursos digitais aí
depositados se mantenham ao longo do tempo.
Estabelecer metodologias para avaliação da qualidade dos sistemas que
vão ao encontro das expectativas da comunidade do ponto de vista da
confiabilidade
71
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Manter políticas, práticas e desempenhos que possam ser auditados e aferidas por entidades independentes
A atribuição de responsabilidades no processo de preservação de recursos digitais é bastante complicada pois todos os intervenientes no processo: criadores de conteúdos, desenhadores de sistemas, patrocinadores e futuros utilizadores são intervenientes activos e
potenciais.
É também difícil conciliar os interesses de alguns intervenientes i.e., os editores comerciais
investem na preservação dos recursos digitais enquanto estes têm valor comercial enquanto que as bibliotecas, arquivos ou museus tendem para objectivos de preservação e de
acesso a longo prazo.
Ambas as filosofias de preservação, como já vimos no ponto referente ao ciclo de vida dos
recursos digitais influenciam decisivamente a futura preservação nos repositórios, especialmente no que diz respeito ao acesso à informação. Contudo, se forem impostas práticas
de normalização no que diz respeito tanto a formatos, evitando a utilização de formatos
proprietários, como à introdução de metadados desde a fase de criação, à atribuição de
identificadores persistentes, e também à correcta aplicação de técnicas de reparabilidade
dos ficheiros, muitos dos problemas serão ultrapassados com uma maior facilidade.
Como veremos no ponto 4.1.4, a implementação do modelo de referência OAIS constitui
um enquadramento base importante, que atribui maturidade à definição de um repositório
digital confiável através de uma interessante articulação de metadados administrativos,
descritivos e estruturais.
4.1.1. As questões legais
A determinação da posse dos recursos nem sempre é clara dada a possibilidade da existência de variadas responsabilidades num só recurso assim como a intangibilidade inerente
às características dos suportes de informação.
Por estas razões assistimos hoje a uma situação em que o acesso a um número crescente
de recursos digitais nas colecções de investigação só é permitido através de onerosos licenciamentos de instituições ou de consórcios de instituições.
Estes acordos dizem respeito tanto aos conteúdos como aos softwares utilizados. A maior
parte dos licenciamentos é ainda muito vaga no que diz respeito à preservação de longo
prazo.
As bibliotecas têm vindo a procurar o acesso a licenciamentos especiais para poderem gerir
a preservação de longo prazo assim como permitir o acesso aos recursos preservados.
72
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
A questão dos direitos de autor no caso da preservação de recursos digitais está ainda
muito pouco esclarecida, dado que os criadores de conteúdos na maior parte das vezes
não detêm os direitos do software e dos sistemas usados para criar os ficheiros digitais.
Deste modo surgem constrangimentos legais no momento de
estabelecer o acesso ou
configurar mudanças no sistema. Um repositório terá que empreender acordos com direitos especiais, claramente definidos, para a gestão a longo prazo.
Na pior das hipóteses a preservação ficará comprometida porque não foram conseguidos
acordos claros.
4.1.2. As questões financeiras
O esforço financeiro é potencialmente mais elevado do que o habitualmente efectuado com
a preservação tradicional.
Os custos da preservação digital devem-se especialmente a:
Necessidade de gerir a mudança tecnológica a intervalos regulares ad infinitum.
Necessidade de normalização tanto na gestão dos recursos propriamente
ditos como nos acordos de licenciamento com os criadores e editores
Necessidade de recrutamento e constante reciclagem de pessoal competente nas áreas tecnológicas em questão.
Considera-se vantajosa a existência de diálogo entre as organizações intervenientes sobre
normalização, critérios e mecanismos necessários para certificação dos repositórios de informação digital e outros assuntos de ordem administrativa e financeira que tendam a melhorar a gestão dos repositórios digitais e, desta forma, contribuir para a sua confiabilidade.
Partindo deste pressuposto, convém referir que é da responsabilidade dos repositórios digitais, tentar influenciar os criadores dos conteúdos que vão ser depositados para que cumpram as boas práticas propostas pelo repositório desde o início da criação142. Neste sentido, devem ser estabelecidas linhas orientadoras que deverão ser dadas a conhecer aos criadores e aos detentores da informação. Esta iniciativa só é possível de concretizar se a selecção e captura dos recursos no repositório não for executada de forma automática.
142
HENDLEY, Tony (1998) – Comparison of methods and costs of digital preservation. British Library
Research and Inovation Report; 106. ISBN 0-7123-9713-2
73
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Da mesma maneira, se legalmente for possível ao repositório receber os recursos através
de depósito legal, deve ser previamente efectuada larga campanha informativa/publicitária
junto dos criadores de conteúdos para que as linhas orientadoras sejam cumpridas.
A partir deste momento o repositório depara-se com custos relativos à gestão dos recursos
e que dizem respeito à estrutura dos dados, à documentação, ao seu armazenamento e à
sua validação. Existem muitos outros custos associados mas vamos abordar unicamente os
seguintes:
Quanto à estrutura dos dados: Os custos variam em função do formato de
criação do recurso ser proprietário ou aberto.
Quanto à documentação: O repositório deve conferir a documentação que
acompanha o recurso. Se for caso disso, deverá enriquecer essa documentação que vai permitir a posterior recuperação do recursos em condições
favoráveis. A documentação diz respeito à estrutura do recurso, ao seu
conteúdo, à sua proveniência e à sua história. Se o repositório não detiver
as condições técnicas suficientes para colmatar as deficiências de documentação, deverá rejeitar os recursos. Acompanhando este raciocínio,
quando a documentação que acompanha o recurso é pobre, os custos do
repositório aumentam dramaticamente.
Quanto à validação: O repositório deve cumprir alguns procedimentos que
vão também encarecer o depósito dos recursos. Deve verificar, através do
seu visionamento, se:
o recurso está conforme com a documentação;
o recurso corre nos ambientes de hardware e software que foram
especificados
o recurso tem qualidades de consistência.
Quanto ao armazenamento: Os custos variam em função da quantidade de
recursos armazenados e da quantidade de recursos disponibilizados, e
também da forma de armazenamento e de acesso. Os cenários prováveis
vão desde o outsourcing total do armazenamento até um armazenamento
misto de off-line, processando-se o acesso aos recursos somente através
de protocolos entre os utilizadores e o repositório ou on-line e distribuídos
em tempo real na Web.
74
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Podemos dividir os custos da preservação propriamente dita em três categorias:
Preservação do fluxo de bites através de cópias e refrescamentos
Interpretação do fluxo de bites através da preservação da documentação
Assegurar que é possível continuar a descodificar os dados no futuro depois de prosseguir uma das estratégias de preservação já referidas
Os custos da gestão dos direitos cobrem todas as fases do processo incluindo a protecção
dos dados e a confidencialidade
4.1.3. A gestão do risco
Muitos dos riscos que ameaçam os recursos digitais já são conhecidos de qualquer repositório. São eles, as calamidades naturais, pragas de insectos ou micro-organismos que destroem os suportes digitais da mesma maneira que destroem livros e edifícios, sabotagens
de qualquer tipo, etc. Por outro lado, os suportes magnéticos ou ópticos contêm, em si
mesmos, vulnerabilidades que lhes são próprias e que podem ser objecto de medidas
profilácticas (ver ponto 3.3.2 onde nos dedicámos às características dos suportes de
armazenamento dos recursos).
Cabe a um repositório digital a implementação de um conjunto de boas práticas que permita cobrir o ciclo de vida dos recursos, preservar os dados e preservar os metadados que
descrevam o ambiente da criação e evolução dos recursos.
Os metadados associados irão facilitar no futuro o acesso ao conhecimento da proveniência, do contexto e do real significado dos dados dos recursos.
Mas, é sobretudo gerir o risco das estratégias de preservação tais como migração de dados
ou emulação de hardware e software que neste momento congrega os esforços dos projectos de preservação digital em curso. Por exemplo, uma folha de cálculo migrada em ASCII
recupera os valores de todas as células mas perde as fórmulas que lhes deram origem.
Para que uma emulação seja totalmente conseguida é necessário empacotar:
os dados a preservar,
o software da aplicação que gerou os dados,
o sistema operativo no qual a aplicação corre e
uma emulação do ambiente de hardware em software com abundante e
pertinente informação acerca dos atributos desse hardware.
75
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Este complexo ambiente tenderá a falhar em muitas ocasiões.
Podemos referir o projecto CAMILEON143, mais do que uma vez já citado neste trabalho
como defensor e implementador da aplicação da emulação. De facto, seria a estratégia
perfeita para garantir que as gerações vindouras pudessem usufruir do acesso às criações
de hoje com respeito pela autenticidade. Infelizmente o risco de perda é muito elevado e
para o gerir é necessário o envolvimento de muitas variáveis, das quais citámos apenas
algumas.
Também o risco envolvido no processo da migração de dados pode estar associado aos seguintes factores:
à própria gestão de colecções no âmbito do repositório
ao formato dos dados
ao software de conversão dos dados
O software de conversão pode ser mais ou menos provido de ferramentas de reparabilidade que garantam a configuração do fluxo de bytes.
Apresentamos a título de exemplo de Lawrence et al., 2000144, um quadro do risco associado a migrações de ficheiros de imagem
TIPO DE RISCO
EXEMPLOS
Reparabilidade (configuração dos
bites, incluindo o fluxo de bites, a sua
forma e estrutura)
Os bites podem ser corrompidos por
bugs do software ou mau manuseamento dos suportes, ou por falhas
mecânicas dos equipamentos
O formato dos dados é acompanhado
por nova compressão que altera a
configuração dos bites
A informação dos cabeçalhos não migra ou migra parcialmente ou incorrectamente
A qualidade da imagem é afectada
por alterações na configuração dos
bites
O novo formato dos ficheiros altera a
ordem dos bytes
Segurança
143
144
A migração afecta as marcas de
http://www.si.umich.edu/CAMILEON/
LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format investigation. CLIR
76
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
água, os selos, ou outras técnicas de
autenticação e reparabilidade
Contexto e integridade
Relação entre a interacção com outros ficheiros relacionados ou outros
elementos no ambiente digital incluindo dependências de hardware ou
software
O novo ficheiro tem uma nova configuração devido às dependências de
hardware e software
As ligações a outros ficheiros são alteradas durante a migração
O novo formato do ficheiro reduz as
dimensões do novo ficheiro e causa
uma condensação do armazenamento
potencialmente causador da alteração
da estrutura dos directórios
Os suportes de armazenamento tornam-se mais densos o que afecta as
etiquetas e a estrutura dos ficheiros
Referência
Habilidade para localizar imagens definitivamente e de forma confiável ao
longo do tempo entre outros recursos
A alteração das extensões dos ficheiros e o seu efeito nos URLs.
A carência de metadados sobre a actividade da migração causa problemas numa futura migração
Custos
Imprevisíveis, visto que se desconhece quantas vezes será necessário migrar
Pessoal
Pessoal pouco especializado
A Imprevisibilidade no número de vezes que vai ser necessário migrar
torna impossível detectar que recursos humanos vão ser necessários
Funcionalidades
Características novas introduzidas durante a migração podem influenciar a
impressão ou outros derivados
Pode ser necessário alterar os interfaces. P. ex.: estático vs. resolução
múltipla ou incapacidade de resposta
da Web ao novo formato
Características únicas que não são
suportadas por outros formatos de ficheiros podem-se perder durante a
migração. É o caso do formato GIF.
O valor de artefacto (em contexto de
criação) pode-se perder devido a alterações durante a migração
77
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Aspectos legais
O copyright pode limitar o uso de novos derivados criados no novo formato
4.1.4. As garantias de acesso continuado aos recursos digitais
Um repositório digital confiável carece de um enquadramento de políticas e procedimentos
largamente testados e bem documentados.
No que diz respeito a repositórios partilhados, isto significa efectivamente articular responsabilidades entre os membros do consórcio.
No caso de repositórios de investigação, a estratégia de preservação deve espelhar a
estratégia de informação como um todo. Mas, acima de tudo, uma política para a
preservação de recursos digitais deve acompanhar a política de preservação de recursos
não digitais que exista na instituição.
Cada recurso digital não deve ser considerado individualmente na altura do depósito. Deve
prevalecer uma atitude baseada nos princípios da gestão de colecções, sendo os procedimentos conduzidos automaticamente.
Estes comportamentos vão ter reflexo na actividade de fornecimento de acesso pois disponibilizar a informação preservada a uma designada comunidade é da total responsabilidade
do repositório digital. O acesso pode ser facilitado se as suas implicações forem compreendidas pela gestão do repositório em si mesmo. O acesso imediato a cada recurso requer
medidas diferentes, tais como p. ex. o estabelecimento de licenciamentos, etc. Devido a
este tipo de constrangimentos, são requeridas medidas de gestão variadas no seio do repositório apoiadas na gestão de colecções.
Da mesma maneira, se os recursos só são acessíveis num formato particular a um grupo
específico de utilizadores durante um período determinado, é necessário encontrar e estabelecer mecanismos adequados que entrem em acção no momento preciso.
Os acordos de acesso mudam consoante as mudanças de licenças, leis e por vezes também devido a constrangimentos relacionados com as tecnologias e os próprios recursos. É
responsabilidade de um repositório assegurar tanto quanto possível que as decisões acerca
das políticas de acesso não limitam acções futuras que comprometam a sua confiabilidade
no que diz respeito a:
Descoberta de recursos: Os utilizadores dos repositórios necessitam descobrir os recursos. Muitas bibliotecas e arquivos fornecem acesso através
dos próprios catálogos. Na prática, muitos dos recursos, chegam ao repo-
78
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
sitório com metadados descritivos associados em MARC ou DC, umas vezes acompanhando o recurso, outras disponibilizando informação existente
noutro sistema.
Autenticidade: Os recursos digitais têm uma evidência menos acentuada
de autoria, proveniência ou mesmo contexto do que os recursos tradicionais existentes nas bibliotecas e arquivos. É necessário proceder a verificações em todos os níveis funcionais do repositório digital. Por este motivo, no acto de submissão a depósito, devem ser accionados mecanismos
de autenticação que garantam que o que é admitido está conforme o que
foi depositado e manterá essas características. Os recursos armazenados
devem ser sujeitos a controlo de integridade que garanta que as fluxos de
bytes se mantêm inalteradas assim como as versões migradas devem ser
verificadas e os emuladores testados. Finalmente, a informação fornecida
ao utilizador – a cópia do fluxo de bytes, os metadados associados e o
software necessário, em conjunto requerem verificação.
Legalizações: As restrições legais, licenças e legislação, governam o acesso
aos recursos e mudam ao longo do tempo. Por este motivo os repositórios
digitais requerem uma infraestrutura que lide com vários tipos de acordos
para diferentes tipos de utilizadores.
Preços: Os repositórios que gerem o acesso com uma estrutura de taxas a
aplicar aos utilizadores requerem mecanismos de comércio electrónico.
Apoio aos utilizadores: Em grande medida, a maior ou menor dificuldade
de acesso é determinada pela base de conhecimento ou competência técnica das comunidades de utilizadores.
Relatório de acessos: A manutenção de um histórico de acesso é aconselhável como parte das atribuições administrativas do repositório.
O preenchimento dos requisitos para responder às responsabilidades que acabámos de
desenvolver requer :
Um sistema de descoberta de recursos
Mecanismos apropriados para autenticação dos recursos digitais
Mecanismos de controlo de acesso, de acordo com licenças e legislação
79
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Mecanismos de gestão de comércio electrónico
Programas de apoio a utilizadores
Em conjunto com as medidas que acabámos de expor é absolutamente necessário que sejam seguidas boas práticas na fase de criação de recursos digitais.
Se os repositórios digitais aconselharem o uso de normas para a criação de recursos digitais reduzirão os custos e conseguirão óptimas economias de escala, ao mesmo tempo que
asseguram a criação de recursos digitais ricos e capazes de ser preservados a longo prazo.
Um repositório digital confiável é mais do que uma organização responsável por armazenar
e gerir ficheiros digitais, é aquele cuja missão visa assegurar o acesso confiável de recursos digitais a uma designada comunidade, agora e no futuro. Assim, é indispensável que
assuntos como autenticação, uso de identificadores persistentes e metadados sejam correctamente equacionados para assegurar a viabilidade das colecções digitais.
4.1.5. O Modelo de referência OAIS
No sentido da aplicação dos princípios defendidos pelo grupo de trabalho da OCLC,
RLG/OCLC atrás referidos145, foi criado o modelo de referência OAIS (Open Archival Information System Reference Model)146, desenvolvido pelo Consultative Committee for Space
Data Systems (CCSDS)147 no âmbito da NASA. Este modelo, é uma norma ISO com o nº
14721:2002148 que descreve um enquadramento conceptual para um repositório digital
genérico, aberto a todas as comunidades com as garantias de confiabilidade que atrás referimos. Da norma consta também um léxico próprio que viabiliza a comunicação entre as
comunidades e os repositórios.
Um OAIS opera num ambiente constituído pela interacção de produtores, utilizadores, gestão e o repositório em si mesmo.
Toda a informação submetida a um OAIS por um produtor e toda a difusão estabelecida a
partir do OAIS a um utilizador ocorre numa ou mais sessões discretas através de pacotes
de informação.
Um pacote de informação é um envelope conceptual onde estão encapsulados informação
de conteúdo (recurso digital e metadados de representação) e metadados de preservação.
145
146
147
148
OCLC/RLG Working Group on preservation metadata (2001) – Op. cit.
OCLC/RLG Working Group on preservation metadata (2002) – Preservation metadata and the
OAIS Information Model : a metadata framework to support the preservation of digital objects: a
report
CONSULTATIVE COMMITTEE FOR SPACE DATA SYSTEMS (2002) – Reference Model for an Open
archive Information System (OAIS), Blue Book
http://ssdoo.gsfc.nasa.gov/nost/isoas/ref_model.html
80
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Gestão dos dados
Produtor
Ingestão
Repositório
Acesso
Utilizador
Administração
Gestão
Fig. 4. - O OAIS e o seu ambiente149
Em resultado de trabalho desenvolvido na comunidade OAIS para definir as obrigações de
um repositório OAIS surgiu o seguinte conjunto de propostas organizativas e estratégicas150:
Negociar a informação a fornecer pelos produtores e detentores de direitos
Obter controlo suficiente de forma a garantir a preservação a longo prazo.
Determinar, por si próprios ou através de parcerias quais os utilizadores de
uma dada comunidade que estarão em condições de compreender a informação disponibilizada.
Assegurar que a informação a preservar é compreensível por si só na comunidade designada, ou seja, que a comunidade compreenderá a informação sem a necessidade de recorrer à assistência de terceiros.
Seguir políticas e procedimentos documentados que assegurem que a informação é preservada contra quaisquer contingências e assegurar a dis-
149
150
OCLC/RLG Working Group on preservation metadata (2001) – Op. cit.
RLG-OCLC (2002) - Trusted digital repositories : attributes and responsabilities, Mountain
View:Research Libraries Group
81
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
seminação da informação com cópias autênticas a partir do original ou similares ao original.
Assegurar que a informação preservada está disponível para a comunidade
designada.
Trabalhar em conjunto com a comunidade do repositório para conseguir a
utilização de boas práticas na criação dos recursos digitais.
Verificar a qualidade dos metadados: quaisquer metadados que acompanhem o recurso quando este é submetido ao repositório devem ser verificados e, se necessário, melhorados para suportar a manutenção de longo
prazo ao mesmo tempo que o acesso continuado
Estabelecer identificadores únicos e persistentes para os recursos.
Igualmente importante é a existência de sistema com capacidade para resolução de links
por forma a encontrar inequivocamente um determinado recurso.
O enquadramento OAIS também inclui um modelo chamado de informação onde são descritos os requisitos de metadados de preservação de longo prazo.
Podemos considerar o modelo OAIS um enquadramento de metadados de aplicação genérica a partir do momento em que este se encontra inserido numa estrutura de repositório
digital que é independente do recurso digital e da tecnologia usada para o processo de preservação.
Neste contexto recurso digital e metadados mantêm-se separados mesmo que embutidos.
82
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Pacote de
Depósito
Informação
Submissão
Difusão
Conteúdo da
Descrição da
Empacotamento da
Descrição da
informação
Informação
informação
informação
para Preservação
Objecto de informação
Base de Conheci-
Objecto-dados
mento
Representação da
Informação
Objecto digital
OU
Objecto Físico
Fig. 5 - Modelo de informação OAIS151
Num repositório OAIS, a informação pode existir de duas formas como representamos na
figura 5 :
1) como artefacto (representação de documento em papel, amostra de terra,
etc).
2) ou como objecto digital (formato PDF, formato TIFF, etc.)
Ambos os tipos, físico e digital, são definidos no ambiente OAIS como objectos-dados.
Os conteúdos dos objectos-dados podem assumir múltiplas formas : as mais óbvias são as
dos recursos a preservar, tais como um jornal electrónico num formato TIFF. Um objectodados pode também ter a ele associado, p. ex., um registo de metadados DC i.e., se a estratégia de preservação implementada obrigar ao encapsulamento dos metadados.
151
OCLC/RLG Working Group on Preservation Metadata (2001) – Op. cit.
83
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
É de realçar que os objectos e os seus metadados são, pelo menos do ponto de vista lógico, objectos separados, mesmo que os metadados estejam inseridos no objecto, o que
pode ser o caso num documento HTML.
A interpretação do objecto pode ser conseguida através da combinação da base de conhecimento dos utilizadores e da representação da informação associando-os ao objecto.
Cada indivíduo ou grupo de indivíduos tem a sua base de conhecimento que é usada para
compreender e interpretar os dados. P. ex. a comunidade dos cidadãos da língua inglesa
deve ter uma base de conhecimento que permita ler em inglês; a comunidade de programadores de Java deve ter uma base de conhecimento na forma de código de Java. A base
de conhecimento é externa ao arquivo, e não é mantida, nem desenvolvida como parte de
qualquer função do arquivo.
A base de conhecimento nem sempre é suficiente para compreender inteiramente o objecto-dados. Neste caso o objecto deve estar representado por uma componente chamada
representação da informação, de forma a ser possível a compreensão total dos utilizadores.
Num nível muito baixo a representação da informação está contida um fluxo de bits. A representação da informação indica se um fluxo de bits representa um parágrafo de texto,
um ficheiro de som, uma imagem, etc. Contudo o conhecimento do formato do ficheiro
descrito no fluxo de bits pode não ser suficiente para interpretar o seu conteúdo.
P.ex.: um objecto-dados na forma de um ficheiro ASCII:
04 27 56
01 16 44
02 01 17
pode ser uma data mas também pode ser outra informação
A informação ASCII não é suficiente para interpretar o conteúdo do objecto sendo necessária informação complementar.
Outro exemplo de representação da informação pode envolver um objecto-dados que consiste no seguinte :
<?xml:namespace ns = http://www.w3.org/RDF/RDF/prefix =”RDF”?>
<?xml:namespace ns = http://purl.oclc.org/DC/”prefix = “DC”?>
<RDF:RDF>
<RDF:Description RDF:HREF = http://uri-of-Document-1>
<DC:Creator>John Smith<DC/CD:Creator>
</RDF:Description>
<RDF:RDF>
84
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Neste exemplo a representação da informação está identificada como metadados que descrevem um documento criado por John Smith e que inclui esquemas para XML , RDF e DC
para que os elementos de metadados e a sua sintaxe seja interpretada de forma correcta.
A representação da informação pode assumir duas formas:
1) informação estrutural
2) informação semântica.
A informação estrutural interpreta os bits organizando-nos por tipos de dados, grupos de
tipos de dados e outros significados de alto nível. Esta deve incluir especificação do formato dos dados e uma possível descrição do ambiente de hardware/software em que os dados foram criados e que se torna necessária para o acesso posterior.
A informação semântica, por outro lado, acrescenta significado à estrutura dos dados,
identificada através da informação estrutural. P. ex. a informação estrutural pode identificar um fluxo de caracteres de texto ASCII enquanto a informação semântica pode indicar
que esse texto se encontra escrito em língua inglesa.
No ambiente do modelo OAIS a representação da informação encontra-se ela própria em
formato digital e por esse motivo deve acrescentar-se informação adicional para interpretar o fluxo de bits da representação da informação, é por este motivo, necessária a existência de uma terceira camada de representação da informação, etc.
O modelo de referência OAIS recomenda que o resultado da rede de representação termine com a elaboração de um documento físico que dê por finda a construção da rede e dê
início ao processo de interpretação.
Um objecto de informação é definido como um objecto-dados combinado com a representação da informação. Num ambiente digital isto implica uma sequência de bits, combinada
com todos os dados necessários a torná-la compreensível. Existem quatro classes de objectos informacionais que, em conjunto, formam um pacote de informação:
Informação acerca do conteúdo
Informação descritiva para preservação
Informação para empacotamento
Informação descritiva
Os pacotes de informação podem ser de três tipos (vide Fig. 5):
85
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
SIP (Submission information package) - Pacote de informação para submissão é enviado do produtor da informação para o depósito.
AIP (Archive information package) - Pacote de informação para depósito preparado para ser armazenado pelo depósito.
DIP (Dissemination information package) - Pacote de informação para disseminação - enviado ao utilizador em resposta e uma pesquisa já em contexto de acesso.
Num contexto de preservação de metadados, a informação relevante encontra-se no pacote AIP, dado que este é o pacote para preservação de longo prazo.
Um AIP é uma agregação de quatro tipos de objectos informacionais:
1) CI (Content information) - Informação acerca do conteúdo que consiste
na informação que o arquivo tem a obrigação de preservar em conjunto
com a informação de representação.
2) PDI (Preservation description information) - Informação descritiva para
a preservação a qual contém informação necessária para gerir a preservação da informação sobre o conteúdo, com que está associada. Esta informação divide-se em quatro tipos :
Informação acerca da referência – enumera e descreve os identificadores destinados à informação sobre o conteúdo de tal maneira que se
tornem inequívocos, interna e externamente ao depósito (p. ex : ISBN,
URN)
Informação acerca da proveniência - documenta a história da informação sobre o conteúdo (p. ex. origem, histórico de custódia, acções e
efeitos da preservação)
Informação acerca do contexto - documenta as relações entre a informação sobre o conteúdo e o seu ambiente (p. ex. razões pelas quais foi
criado, relações com outras informações de conteúdo, etc.)
Informação acerca da reparabilidade : documenta mecanismos de
reparabilidade e autenticação usados para assegurar que o conteúdo da
informação não foi alterado de forma não documentada (p. ex. checksums ou assinaturas digitais)
86
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
3) PI (package information) - Informação para empacotamento que envolve o objecto digital e os metadados associados numa unidade ou pacote.
4) (DI) Descriptive information - Informação descritiva que facilita o acesso à informação sobre o conteúdo através das ferramentas de pesquisa e
recuperação. A informação descritiva serve de input das ajudas à localização de depósitos e deriva tipicamente da informação sobre o conteúdo ou
da informação descritiva para preservação.
O modelo OAIS representa uma descrição de alto nível dos tipos de informação gerados e
geridos num contexto global de sistema de depósito digital. Não transmite pressupostos
acerca do tipo de recursos digitais manuseados no depósito nem acerca das especificações
tecnológicas empregadas pelo depósito para atingir os seus objectivos de preservação e
acesso de longo prazo.
Deste modo o modelo fornece uma estrutura útil de desenvolvimento de metadados para a
preservação que vai ao encontro dos requisitos necessários a uma actividade de preservação digital alargada.
O modelo de referência OAIS é, neste momento, a base de trabalho das instituições de
maior renome internacional na área da preservação digital, através dos projectos NEDLIB,
CEDARS, PANDORA e OCLC/RLG. Estes projectos vão ser objecto de referência detalhada
no ponto seguinte.
Apresentamos em seguida um modelo de um pacote de Informação OAIS152
MODELO - Pacote de Informação para Arquivo
Informação sobre o conteúdo
Objecto-dados
Informação sobre a representação
• Informação sobre a estrutura
• Informação sobre a semântica
Informação descritiva para a preservação
Informação sobre a referência
• Objecto-dados
• Informação sobre a representação
• Informação sobre a estrutura
• Informação sobre a semântica
Informação sobre o contexto
• Objecto-dados
• Informação sobre a representação
152
OCLC/RLG (2001) – Op. cit.
87
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
• Informação sobre a estrutura
• Informação sobre a semântica
Informação sobre a proveniência da Informação
• Objecto-dados
• Informação sobre a representação
• Informação sobre a estrutura
• Informação sobre a semântica
Informação de autenticação
• Objecto-dados
• Informação sobre a representação
• Informação sobre a estrutura
• Informação sobre a semântica
Informação sobre os pacotes de informação
Objecto-dados
Informação sobre a representação
• Informação sobre a estrutura
• Informação sobre a semântica
Informação descritiva
Objecto-dados
Informação sobre a representação
• Informação sobre a estrutura
• Informação sobre a semântica
4.2. AS GRANDES OPÇÕES DE PRESERVAÇÃO
Devido à importância e urgência cada vez maiores atribuídas à preservação de conteúdos
da Internet a longo prazo, estão em curso inúmeros projectos que se debruçam sobre este
assunto. Neste sub-capítulo vamos estudar aqueles que consideramos tecnologicamente
mais avançados e de maior relevância a nível internacional.
4.2.1. Internet Archive153
O Internet Archive é o projecto mais vultuoso e ambicioso na área da preservação digital
de longo prazo. É uma iniciativa americana que consiste em coleccionar e arquivar páginas
Web, na perspectiva de guardar todos os conteúdos relevantes e está sediado no Presídio
de São Francisco. Teve início em 1996 com o objectivo de construir uma biblioteca digital
que pudesse oferecer acesso a conteúdos históricos para um público de investigadores,
historiadores e académicos. Em Março de 2001, a colecção do Internet Archive de páginas
153
http://www.archive.org/
88
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Web estava compreendida em mais de 43 terabytes (Rauber & Ascenbrenner, 2001)154,
em Janeiro de 2002 já era de mais de 100 (Koman, 2002)155.
Os recursos digitais são encaminhados para o Internet Archive através de terceiros. O maior contribuinte é o motor de busca Alexa Internet. O robot do Alexa Internet captura mais
de 100 gigabytes por dia em toda a Internet. Não existe nenhum tipo de selecção de recursos e não existe violação de direitos uma vez que todos os recursos capturados estão
no domínio público.
Para garantir a preservação de longo prazo são tomados três tipos de acções :
1) manutenção de cópias em diversos locais geográficos
2) migração dos dados para novos suportes regularmente e
3) constituição de uma colecção de emuladores para usar no futuro
Em entrevista dada por Brewster Kale à RLG Diginews (2002)156, este refere que os intervalos de tempo das viagens dos crawlers a todo o espaço da Internet é de dois em dois
meses, mas também existe a busca semanal ou mesmo diária de colecções consideradas
importantes.
As orientações seguidas pelo Internet Archive em matéria de aplicação de modelo para a
gestão da preservação são as do RLG/OCLC157, logo, vamos encontrar o modelo de referência OAIS, ao qual já referimos detalhadamente no ponto 4.1.5.
4.2.2. NEDLIB - Networked European Deposit Library158
O projecto NEDLIB, em curso de 1998 a 2000 foi apoiado pela União Europeia no âmbito
de proposta submetida pelo grupo de bibliotecas nacionais europeias designado por COBRA
(Computorized Bibliographic Record Actions)159. No projecto estiveram envolvidas oito bibliotecas nacionais, um arquivo nacional, duas empresas na área das tecnologias de informação e três grandes editoras. A Comissão Europeia patrocinou o projecto através do programa “Telematics for Library Programme of the European Comission” e a coordenação
pertenceu à Biblioteca Nacional da Holanda.
154
155
156
157
158
RAUBER, Andreas & ASCHENBRENNER, Andreas (2001) - Part of our culture is born digital : on
efforts to preserve it for future generations. Trans-Internet-Zeitschrift für Kulturwissenschaften.
10
Koman, Richard (2002) – How the wayback machine works. The O´Reilly Network.
KALE, Brewster (2002) – Op. cit.
OCLC/RLG Working Group on Preservation Metadata (2002) – Preservation metadata and the
OAIS information model : a metadata framework to support the preservation of digital objects.
OCLC
http://www.kb.nl/nedlib
89
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
O principal objectivo deste projecto foi a construção de uma infraestrutura básica de apoio
a uma rede europeia de depósito de recursos digitais para preservação de longo prazo
(Deposit System Electronic Publications - DSEP).
O projecto NEDLIB baseia-se no modelo de referência OAIS e o propósito consistiu na identificação de requisitos funcionais, comuns a todas as bibliotecas de depósito por forma a
chegar a um consenso quanto à construção de um DSEP que servisse de base para implementações locais. Outros dois objectivos nortearam o projecto, um foi a extensão do depósito à preservação de longo prazo e o outro resultou na construção de um sistema de demonstração que cobre todas as funcionalidades do DSEP (Werf-Davelaar, 1999)160.
Um DSEP interage como os sistemas das bibliotecas através de dois interfaces (Fig. 6):
1) Interface de envio e captura
Este interface tem como funcionalidade ajudar na fase de pré-ingestão, orientando os depositantes no sentido de serem cumpridas boas práticas sem as quais os recursos não têm
autorização de entrar no depósito.
2) Interface de empacotamento e envio
Neste caso o DSEP pode requerer e aceitar um DIP (Pacote de disseminação da informação) a partir do módulo de acesso. O DIP consiste na publicação requisitada num dos formatos disponíveis, com software acompanhante e respectivos metadados necessários para
instalação e acesso, no sentido da reconstrução do documento original com toda a autenticidade.
O DSEP consiste de seis módulos, cinco são módulos OAIS, acrescidos de um outro para
preservação pois as estratégias de preservação não são contempladas no modelo de referência OAIS, como já foi referido.
Os módulos são : Ingestão, Armazenamento, Gestão de dados, Acesso, Administração e
Preservação. Apresenta-se de seguida o Modelo Processual.
159
160
http://www.kb.nl/gabriel/cobra
WERF-DAVELAAR, Titia van der (1999) – Long-term preservation of electronic publications : the
NEDLIB project. D-Lib Magazine, 5 (9)
90
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Fig. 6 – Modelo DSEP (adaptado de WERF-DAVELAAR, Titia van der (1999) op. cit.)
91
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
4.2.3. CEDARS (CURL Exemplars in Digital Archives)161
O projecto CEDARS desenvolve-se no Reino Unido, patrocinado pelo JISC (Joint Information System Committee)162 através do programa “eLib – The electronic libraries programme”163 sob proposta do consórcio de bibliotecas universitárias CURL (Consortium of
University Research Libraries)164, que entendeu inscrever a preservação digital como uma
das suas missões. O projecto teve início em 1998 com a duração de 3 anos.
O projecto CEDARS manifesta como seus objectivos:
Promover a consciencialização da importância da preservação digital no
ambiente das bibliotecas de investigação e académicas e também junto
dos seus utilizadores.
Identificar, documentar e divulgar plataformas estratégicas de gestão de
colecções no sentido da preservação de longo prazo dos recursos digitais
nelas incluídos.
Investigar, documentar e promover métodos apropriados à preservação de
longo prazo para diferentes tipos de recursos digitais existentes nas colecções das bibliotecas e ao mesmo tempo desenvolver modelos devidamente
escalonáveis.
O projecto CEDARS coloca fora do seu âmbito os recursos digitais que tenham a forma de
som ou vídeo e elege como tipos de recursos a preservar :
Recursos digitais fruto de digitalização
Conjuntos de dados
Publicações electrónicas
Bases de dados em linha
Recursos efémeros – pré-impressões, páginas Web, etc.
Recursos digitais onde o conteúdo intelectual se limita a estrutura, forma e
comportamento
161
162
163
164
http://www.leeds.ac.uk/cedars/
http://www.jisc.ac.uk/
http://www.ukoln.ac.uk/services/elib/
http://www.curl.ac.uk/
92
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Metadados
Um dos produtos resultantes do projecto diz respeito à aplicação do modelo de referência
de metadados OAIS à realidade CEDARS. Apresentamos em seguida a estrutura dos requisitos de metadados para um pacote de informação165.
Pacote de informação
Informação descritiva para preservação
Informação sobre a referência
Descrição do recurso
Metadados existentes
Registos existentes
Informação sobre o contexto
Informação sobre outros objectos informacionais
Informação sobre a proveniência
História da origem
Informação sobre a gestão
Gestão de direitos
Informação sobre a autenticidade
Indicadores de autenticação
Informação sobre o conteúdo
Informação sobre a representação
Objecto-dados
O conjunto de metadados está obrigado a apoiar de forma significativa o acesso aos conteúdos do depósito e inclui metadados descritivos, administrativos, técnicos e legais. Os
metadados são aplicados a um leque alargado de objectos digitais na expectativa de que
uma biblioteca digital contenha colecções de variados formatos. Da mesma forma as especificações devem ser independentes do nível de granularidade aos quais os metadados estão associados.
165
CEDARS Guide to Preservation Metadata (2002)
93
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Incluímos em seguida a Figura 7, relativa à função de gestão dos dados num ambiente
OAIS, neste caso implementado pelo CEDARS e baseados em Russell & Sergeant, 1999166
Fig. 7. – Ambiente de um depósito CEDARS baseado no OAIS167
4.2.4. PANDORA (Preserving and Accessing Networked Documentary Resources of Australia)168
O Projecto PANDORA desenvolveu-se como iniciativa da Biblioteca Nacional da Austrália169
com a missão de preservar e fornecer acesso a recursos digitais da Internet a longo prazo.
O projecto PANDORA iniciou-se em 1996 tendo como objectivos170 :
Identificar os requisitos funcionais para a gestão de um sistema de
preservação
Identificar, testar e avaliar técnicas, normas e produtos envolvidos no processo de preservação incluindo a captura, a catalogação e o depósito
Estimar quais os recursos financeiros, de equipamento e pessoal necessários
166
167
168
169
RUSSELL, Kelly & SERGEANT, D. M. (1999) – The Cedars Project : implementing a model for distributed digital archives. RLG DigiNews, 3 (3)
RUSSELL, Kelly & SERGEANT, D. M. (1999) – Op. cit.
http://pandora.nla.gov.au/index.html/
http://www.nla.gov.au/
94
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Desenvolver recomendações e estratégias para a preservação de longo
prazo e acesso, incluindo considerações acerca de refrescamentos, migrações, etc.
Desenvolver uma proposta de âmbito nacional para a preservação digital
de longo prazo
A proposta da Biblioteca Nacional da Austrália através do projecto PANDORA não explicita
em detalhe uma estrutura de contexto para o conjunto de metadados, no entanto, sugerenos que o conjunto de metadados foi inspirado pelo modelo OAIS.
A prioridade da Biblioteca Nacional da Austrália é tornar pesquisáveis os recursos que foram seleccionados para integrar o repositório PANDORA. Deverá ser possível aos utilizadores satisfazer uma pesquisa através do título e explorar o sítio e as ligações disponíveis. O
acesso é unicamente possível através de metadados dos títulos.
No momento em que um recurso é depositado, são acrescentados metadados sobre o
mesmo. O recurso sofre algumas alterações dado que é alvo duma operação de “limpeza”,
i.e., são desactivadas funções de caracter administrativo, removem-se conteúdos duplicados, apagam-se partes estranhas e desactivam-se os links. É absolutamente necessário
registar todas as alterações, com vista a assegurar que a história da mudança e da proveniência possa ser totalmente traçada.
O acesso do utilizador final aos recursos do repositório PANDORA pode ser conseguido,
sempre que possível, sem restrições e de forma gratuita. Poderá haver lugar a algumas
restrições de acesso caso surjam interesses comerciais ou outros que inviabilizem a consulta durante um certo período de tempo.
4.2.5. OCLC/RLG Working Group on Preservation Metadata171
O OCLC/RLG (Online Computer Library Center/ Research Libraries Group), consórcio de
mais de 160 instituições americanas, constituiu-se em Março de 2000 com o objectivo de
colaborar na identificação das melhores práticas para a preservação de recursos digitais a
longo prazo e desenvolver uma estrutura de metadados de aplicação alargada. É pioneiro
no desenvolvimento de soluções cooperativas para os problemas da gestão de colecções,
tais como aquisição, fornecimento e preservação de informação
Este grupo de trabalho recomenda um conjunto de 16 elementos que considerava essenciais para a preservação de ficheiros originais ao longo do tempo172. Estes elementos enqua-
171
172
http://www.oclc.org/research/pmwg/
OCLC/RLG Working Group on Preservation Metadata (2001) – Op. cit.
95
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
dram-se nas três categorias de metadados já mencionadas : descritivos, administrativos e
estruturais.
Apesar das três categorias estarem cobertas, o foco principal encontra-se nos metadados
administrativos. Por exemplo, as estratégias de preservação tais como a migração, alteram
por vezes a integridade dos bits do objecto arquivado. Estas alterações devem estar documentadas na “História da mudança”. O facto da integridade dos bits de um objecto digital
ser maleável neste sentido, sugere a necessidade da validação de que esse objecto não foi
corrompido, ou propositadamente ou intencionalmente alterado durante o ciclo da preservação. Um algoritmo para validação automática ou uma assinatura digital registada no
elemento “Chave de validação” satisfaria esta necessidade. Para confirmar a autenticidade
do objecto poderiam ser comparadas as alterações da chave de validação com mudanças
do documento, através da integridade dos bits do objecto registados no elemento “História
da mudança”. Ambos os elementos “História da mudança” e “Chave de validação” cabem
na categoria de metadados administrativos.
Neste exemplo, os metadados de preservação servem a função administrativa, uma vez
que falamos de gestão de depósito do objecto. Os metadados de preservação também podem servir a função estrutural ao detalhar as relações entre diferentes objectos que residem num repositório digital. Por exemplo, vários objectos depositados podem colectivamente representar um único objecto complexo. Os metadados servem para colocar os objectos em sintonia. Alternativamente os metadados podem estabelecer ligações entre diferentes versões de um objecto depositado, diferente apenas no formato do ficheiro. Como
um objecto se movimenta em diferentes fases de migração, novas versões do objecto são
produzidas. Os metadados estabelecem a união numa única cadeia lógica.
No que diz respeito aos metadados descritivos, estes estão preferencialmente destinados à
fase do acesso de modo a permitirem a descoberta do recurso como resposta a uma consulta.
Um enquadramento desta natureza, levado a cabo pelo OCLC/RLG deve representar, a um
nível bastante alargado, as necessidades dos tipos de metadados que atribuem consistência a uma actividade de preservação digital.
Da mesma maneira que os projectos anteriores também o OCLC/RLG pretende aplicar o
modelo de referência OAIS com objectivos reguladores na comunidade que representa e
que são :
a) Fornecer às instituições que pretendam iniciar actividades de preservação digital um padrão para os requisitos de metadados que assegure que
os recursos digitais são preservados a longo prazo.
96
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
b) Facilitar o consenso numa estrutura de metadados que contribui para a
interoperabilidade entre os repositórios de recursos digitais, facilita a correspondência entre metadados e abre caminho à partilha de recursos.
c) Propor uma estrutura comum que facilitaria a inclusão de informação de
produtores e de outras entidades externas ao repositório, no início do processo de criação dos metadados.
4.2.6. FEDORA (Flexible Extensible Digital Object and Repository
Architecture)173
O projecto FEDORA tem sede na biblioteca da Universidade da Virgínia nos Estados Unidos
da América e é desenvolvido no âmbito de uma parceria com a Universidade de Cornell. É
subsidiado pela Andrew W. Mellon Foundation.
O projecto FEDORA não se desenvolveu com base no modelo de referência OAIS e pretende ter ao mesmo tempo uma aplicação genérica e específica.
A linguagem utilizada é a WSDL (Web Services Description Language). Esta é uma linguagem XML, desenvolvida no âmbito do W3C que descreve serviços Web baseados em modelos abstractos174,175.
As funcionalidades do sistema baseiam-se em duas entidades, uma que diz respeito à arquitectura dos objectos digitais, que comportam dados, metadados e ambiente e a outra
ao repositório propriamente dito.
O ambiente é representado através de ligações distribuídas por serviços Web através da
linguagem WSDL e implementados via HTTP GET/POST ou SOAP (Simple Object Access
Protocol).
Os objectos digitais são codificados e armazenados em XML, utilizando o formato METS.
O repositório gere a longo prazo os recursos digitais, os metadados, as aplicações informáticas e os serviços e ferramentas que os apoiam. Pretende ser um fornecedor OAI (Open
Access Initiative).
A arquitectura dos objectos digitais é composta por vários componentes :
-
173
174
175
1 identificador persistente
http://www.fedora.info
W3C Publishes Working Drafts for Web Services Description Language (WSDL) 1.2. (2002) Cover
pages, Julho
Web Services Description Language (WSDL) Version 1.2 (2002): Bindings. W3C Working Group
Draft Julho
97
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
-
Disseminadores que permitem o acesso ao conteúdo do objecto
-
Metadados necessários à gestão do objecto ao longo do tempo
-
Fluxos de dados que compõem a base do conteúdo do objecto
A linguagem XML que codifica os objectos digitais é usada através duma extensão do
formato METS (vide 3.7.2).
Este formato foi adoptado pois tem potencialidades que aos olhos do projecto FEDORA
se adequam aos seus objectivos e que são :
-
A utilização da linguagem XML
-
Ser um formato aberto
-
Seguir a norma mantida pelo Network Development and MARC Standards Office da
Biblioteca do Congresso176 desenvolvida como uma iniciativa da DLF177 (Digital Library Federation)
-
Deter todas as funcionalidades necessárias ao projecto
4.3. A MOTIVAÇÃO PARA A UTILIZAÇÂO DO MODELO DE REFERÊNCIA OAIS
4.3.1. Os interesses das potenciais comunidades utilizadoras
No ponto anterior indicámos as principais opções de preservação digital a nível mundial
enquadrando-as nas diferentes missões e objectivos das instituições que chamaram a si
essa responsabilidade.
A implementação do modelo de referência OAIS parece ser uma constante, embora na comunidade NEDLIB não tenha sido explicitamente referenciada a sua implementação, se nos
reportarmos ao relatório de Lupovici & Masanés, 2000178.
Da aplicação do modelo OAIS resultam conjuntos de boas práticas que são indispensáveis
para a preservação a longo prazo.
Neste ponto vamos abordar a construção do pacote AIP (Archive Information Package) –
Pacote de informação para depósito seguindo as boas práticas referidas pelas comunidades
em estudo.
176
177
178
http://lcweb.loc.gov/marc/ndmso.html
http://www.diglib.org/
LUPOVICI, Catherine, MASANÈS, Julien (2000) – Metadata for the long term preservation of electronic publications. Nedlib Report Series; 2
98
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Este pacote é composto por quatro agrupamentos de metadados, como foi referido anteriormente no ponto 4.1.5. Vamos dedicar-nos especialmente à PDI (Preservation Description
Information) - Informação Descritiva para Preservação, e à CI (Content Information) – Informação sobre o conteúdo, ou seja, o objecto-dados e a informação acerca do seu conteúdo. O pacote PDI é, por sua vez, composto por 4 grupos : Informação sobre a referência,
Informação sobre a proveniência, Informação sobre o contexto e Informação sobre a autenticação e mecanismos de reparabilidade.
Dedicar-nos-emos também à DI (Descriptive information), informação descritiva que permite facilitar o acesso das ferramentas de busca automática. Mais à frente vamos articular
este conjunto de metadados com o OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), protocolo de recuperação automática dos metadados. Os metadados descritivos podem ser repescados tanto em CI como em PDI.
Não é demais referir que o povoamento que apresentamos, acompanha as necessidades
das comunidades implementadoras, neste caso as comunidades já apresentadas no ponto
4.2 : CEDARS, NLA, NEDLIB e OCLC.
A OCLC, por sua vez, sugere a viabilidade da construção de uma matriz de metadados de
certa maneira consensual, com o objectivo de permitir uma mais ampla interoperabilidade
entre repositórios através da comparação de metadados propostos pelo WG e pelas três já
existentes usando como benchmark a comunidade CEDARS (OCLC/RLG, 2001, 2002)179,180,
por considerar que é a que mais bem se adapta ao modelo de referência OAIS. Também a
comunidade da Universidade de Harvard é referida no relatório da OCLC/RLG de 2001, mas
dado que não implementa o modelo OAIS, não é nossa intenção incluí-la neste trabalho.
Vejamos, no que diz respeito à Informação sobre a Proveniência para um Pacote de informação para depósito quais as abordagens das três comunidades referidas.
Para cada uma juntamos o respectivo povoamento:
a) A Comunidade CEDARS
O conjunto de metadados da comunidade CEDARS, como o de todas as outras, tem o objectivo de permitir a preservação digital de longo prazo.
Exige-se destes metadados que permitam o acesso com recuperação pertinente e, tanto
quanto possível, fiel aos recursos digitais e aos seus conteúdos depositados no repositório
digital a longo prazo. Ao mesmo tempo pretende-se que acrescentem valor às condições
de preservação.
179
180
OCLC/RLG (2001) – Op. cit.
OCLC/RLG (2002) – Op. cit.
99
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
O conjunto inclui metadados descritivos, administrativos, estruturais ou técnicos e também
informação legal. Pretende-se aplicar estes metadados a uma classe alargada de objectos
digitais, na expectativa de que uma qualquer colecção contenha vários formatos. Da mesma maneira, pretende-se que a especificação seja independente do nível de granularidade.
A comunidade CEDARS divide o pacote de Informação sobre a proveniência em três subcategorias: (1) História da origem, (2) História da gestão e (3) Gestão de direitos.
A História da origem descreve o objecto digital numa fase anterior à ingestão no repositório. Os metadados relevantes incluem a razão da criação, a cadeia de custódia antes da
ingestão, quaisquer modificações que tivessem tido lugar antes do depósito e o ambiente
técnico utilizado no momento em que o repositório assumiu a responsabilidade da preservação. Isto inclui a especificação do ambiente de hardware e software do objecto como
pré-requisitos, procedimentos para a instalação e operação nesse ambiente e qualquer documentação adicional de interesse para compreensão do ambiente técnico. Finalmente o
último elemento nesta categoria regista a razão da preservação.
Este grupo de metadados é construído na fase de pré-ingestão no repositório e é fundamental para uma boa gestão da preservação e do acesso no futuro. Independentemente
da granularidade o conjunto deve ser obrigatoriamente preenchido. Podemos incluí-los nas
categorias de metadados administrativos e estruturais ou técnicos.
A História da gestão documenta qualquer modificação efectuada ao objecto digital durante
a sua permanência no repositório, contudo também inclui qualquer modificação feita ao
objecto ao prepará-lo para o depósito na fase anterior, de pré-ingestão
e modificações
subsequentes durante o armazenamento. A história administrativa, já em ambiente de depósito propriamente dito inclui as estratégias de preservação enquanto decisões administrativas e enquanto acções de preservação.
A Gestão dos direitos encontra-se, na comunidade CEDARS, no âmbito da informação sobre a proveniência, também numa fase de pré-ingestão. Particularmente este grupo de
metadados relata os pormenores de todas as negociações que ocorreram antes da ingestão e os direitos de propriedade intelectual associados. Os últimos incluem declarações de
copyright (nome do editor, data de publicação, avisos de direitos e contactos dos detentores dos direitos).
No que diz respeito à informação sobre a representação, cuja função é comunicar sentido
ao fluxo de bits que compõem um objecto digital o projecto CEDARS considera fundamental descrever a estrutura interna do objecto, o que acontece através de metadados relativos às ferramentas que transformam e representam os objectos. Estes estão divididos em
cinco sub-elementos: plataforma, parâmetros necessários para operar o software de repre-
100
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
sentação, ferramentas de representação e análise e formatos de output e de input produzidos pelas ferramentas de representação. Incluímos em seguida o povoamento exemplificativo (OCLC/RLG, 2001 op. cit.)181
181
OCLC/RLG (2001) – Op. cit.
101
CEDARS
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
História da origem do recurso
Ambiente técnico original
Pre-requisitos
-
PDI
A
História da origem do recurso
Ambiente técnico original
Procedimentos
-
PDI
A
História da origem do recurso
Ambiente técnico original
Documentação
-
PDI
A
História da origem do recurso
Condução do processo
-
-
PDI
A
História da origem do recurso
História da custódia
-
-
PDI
A
História da origem do recurso
História da mudança antes do
depósito
-
-
PDI
A
História da origem do recurso
Notas sobre a origem
-
-
PDI
A
História da origem do recurso
Razão para preservação
-
-
PDI
A
História do Processo - pré-ingestão
Datas limite
-
-
PDI
A
História do Processo - pré-ingestão
Forma de condução do processo
-
-
PDI
A
História do Processo - pré-ingestão
Linhas orientadoras usadas
-
-
PDI
A
História do Processo - pré-ingestão
Mudanças nos recursos
-
-
PDI
A
CEDARS
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
História do Processo - pré-ingestão
Outros
-
-
PDI
A
História do Processo - pré-ingestão
Razão da forma de apresentação
-
-
PDI
A
História do Processo - pré-ingestão
Resultados
-
-
PDI
A
História do Processo - pré-ingestão
Título do processo
-
-
PDI
A
História da gestão
História administrativa no depósito
História dos movimentos
-
PDI
A
História da gestão
História administrativa no depósito
História das estratégias
-
PDI
A
História da gestão
História do processo de ingestão
-
-
PDI
A
Gestão de direitos
História da negociação
-
-
PDI
A
Gestão de direitos
Informação sobre os direitos
Intervenientes
-
PDI
A
Gestão de direitos
Informação sobre os direitos
Declaração de copyright
Aviso de direitos
PDI
A
Gestão de direitos
Informação sobre os direitos
Declaração de copyright
Contactos do detentor
de direitos
PDI
A
Gestão de direitos
Informação sobre os direitos
Declaração de copyright
Data de publicação
PDI
A
CEDARS
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Gestão de direitos
Informação sobre os direitos
Declaração de copyright
Editor
PDI
A
Gestão de direitos
Informação sobre os direitos
Declaração de copyright
Local de publicação
PDI
A
Gestão de direitos
Informação sobre os direitos
Acções a tomar
Permitidas por lei
PDI
A
Gestão de direitos
Informação sobre os direitos
Acções a tomar
Permitidas por licenças
PDI
A
Indicador de autenticação
-
-
-
FI
A
Resumo da descrição formal
-
-
-
CI
A,D
Objectos transformadores
Ferramentas de análise e
representação
-
-
CI
E
Objectos transformadores
Formato de input
-
-
CI
E
Objectos transformadores
Formato de output
-
-
CI
E
Objectos transformadores
Parâmetros
-
-
CI
E
Objectos transformadores
Plataforma
-
-
CI
E
Objectos de representação, análise
e conversão
Ferramentas de análise e
representação
-
-
CI
E
CEDARS
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Objectos de representação, análise
e conversão
Formato de input
-
-
CI
E
Objectos de representação, análise
e conversão
Formato de output
-
-
CI
E
Objectos de representação, análise
e conversão
Parâmetros
-
-
CI
E
Objectos de representação, análise
e conversão
Plataforma
-
-
CI
E
Render/analyze objects
Ferramentas de análise e
representação
-
-
CI
E
Render/analyze objects
Formato de input
-
-
CI
E
Render/analyze objects
Formato de output
-
-
CI
E
Render/analyze objects
Parâmetros
-
-
CI
E
Render/analyze objects
Plataforma
-
-
CI
E
Identificador persistente
-
-
-
PDI
A,D
Data de criação
-
-
-
PDI
A,D
Relações externas
-
-
-
PDI
A
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
b) A comunidade NEDLIB
Esta comunidade aborda a informação sobre a proveniência através de metadados sobre a
história da mudança do objecto.
São especificados dois tipos de metadados: metadados do objecto propriamente dito, que
documentam acções de preservação do mesmo e outros metadados relacionados, registando estes os valores relativos a operações de reparabilidade ou autenticação. A granularidade dos últimos reporta-se unicamente a valor anterior e valor actual.
A informação sobre a representação não se subdivide em estrutural e semântica, tal como
é recomendado pelo modelo de referência e está documentada através de cinco elementos
base: Requisitos específicos de hardware, requisitos específicos de multimedia, requisitos
específicos de periféricos (ex. a utilização de um dispositivo ZIP), requisitos específicos do
sistema operativo, interpretador e compilador, metadados acerca do formato do objecto e
aplicações necessárias para aceder ao conteúdo do objecto, e ainda do nome e versão dos
componentes do sistema.
Verificámos que os metadados para a preservação de longo prazo estão incluídos tanto no
pacote de informação para depósito, como no pacote que se destina à descrição para o
acesso, como ajuda na recuperação. Este facto deve-se a que num DSEP (Deposit System
for Electronic Documents) os metadados existem em grande quantidade e são manipulados
automaticamente. Assim, encontramos incluídas na Informação sobre a representação indicações já referidas no pacote de informação para depósito, que contêm tanto a descrição
do formato do software como os códigos fonte. P. ex. em vez de indicar “HTML 4” os metadados devem também conter um apontador para as especificações do “HTML 4”, assim
como o código fonte que indica o caminho do W3C que contém a DTD (Document type definition) da referida versão182.
Tal como no caso anterior ilustramos o processo com exemplos de povoamento retirados
de OCLC/RLG, 2001 (op. cit.)183
182
183
Lupovici, Catherine & Masanès, Junlien (2000) – Op. cit.
OCLC/RLG (2001) – Op. cit.
106
NEDLIB
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
História da mudança
Metadados associados
Valor antigo
-
PDI
A
História da mudança
Metadados associados
Valor novo
-
PDI
A
História da mudança
Metadados associados
Inversão
-
PDI
A
História da mudança
Metadados associados
Data
-
PDI
A
História da mudança
Metadados associados
Ferramenta
Nome
PDI
A
História da mudança
Metadados associados
Ferramenta
Versão
PDI
A
História da mudança
outros metadados associados
Valor novo
-
PDI
A
História da mudança
outros metadados associados
Valor antigo
-
PDI
A
Checksum
Algoritmo
-
-
PDI
A
Checksum
Valor
-
-
PDI
A
Assinatura digital
-
-
-
PDI
A
Requisitos específicos de hardware
Requisitos específicos de periféricos
-
-
CI
E
NEDLIB
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Requisitos específicos de hardware
Requisitos específicos de
processador
-
-
CI
E
Requisitos específicos de hardware
Requisitos específicos multimédia
-
-
CI
E
Sistema operativo
Nome
-
-
CI
E
Sistema operativo
Versão
-
-
CI
E
Interpretador e compilador
Instruções
-
-
CI
E
Interpretador e compilador
Nome
-
-
CI
E
Interpretador e compilador
Versão
-
-
CI
E
Formato do objecto
Nome
-
-
CI
E
Formato do objecto
versão
-
-
CI
E
Aplicação
Nome
-
-
CI
E
Aplicação
Versão
-
-
CI
E
Tipo de estrutura
-
-
-
CI
A
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
c) A comunidade da Biblioteca Nacional da Austrália
A Biblioteca Nacional da Austrália através do projecto PANDORA faz incidir uma parte da
informação sobre a proveniência nas acções de autorização de criação de cópias de preservação e documenta a decisão de depositar ou não um determinado objecto. Ao mesmo
tempo introduz um elemento sobre as razões da decisão.
Regista também todas as perdas de funcionalidade ou modificações no look-and-feel da
versão inicialmente depositada em relação à preservada.
O processo de preservação está descrito através de uma série de sub-elementos que documentam os vários aspectos considerados relevantes e que incluem a descrição do processo, o hardware e o software usados, a forma de condução do processo e identificação
das linhas orientadoras para a implementação assim como datas de criação e de finalização e ainda o sucesso ou insucesso do processo de preservação.
Além dos metadados já referidos podemos verificar que é também atribuída importância à
história dos metadados através do elemento Criador do registo de metadados, que pode
ser uma pessoa ou uma instituição.
Quanto à informação sobre a representação a Biblioteca Nacional da Austrália ainda propõe
extensões de alguns metadados estruturais para som, vídeo, texto, bases de dados,
software, etc.
Também neste caso incluímos a respectiva matriz de metadados.
109
NLA
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Permissão para acções de
preservação
-
-
-
PDI
A
Mudança ou perda de funcionalidade
-
-
-
PDI
A
Decisão de depositar (funcional)
-
-
-
PDI
A
Razão da decisão
-
-
-
PDI
A
Insituição responsável
-
-
-
PDI
A
Decisão de depositar (manifestação)
-
-
-
PDI
A
Razão da decisão (manifestação
-
-
-
PDI
A
Tipo de intenção
-
-
-
PDI
A
Processo de preservação
Condução do processo
-
-
PDI
A
Processo de preservação
Datas limite
-
-
PDI
A
Processo de preservação
Descrição do processo
-
-
PDI
A
Processo de preservação
Hardware crítico usado no processo
-
-
PDI
A
NLA
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Processo de preservação
Instituição responsável pelo
processo
-
-
PDI
A
Processo de preservação
Linhas orientadoras do processo
-
-
PDI
A
Processo de preservação
Mudanças nos recursos
-
-
PDI
A
Processo de preservação
Outros
-
-
PDI
A
Processo de preservação
Razão do processo
-
-
PDI
A
Processo de preservação
Resultados
-
-
PDI
A
Processo de preservação
Software crítico usado no processo
-
-
PDI
A
Validação
-
-
-
PDI
A
Tipo de estrutura
-
-
-
CI
E
Estrutura técnica dos recursos
complexos
-
-
-
CI
E
Descrição do ficheiro
Audio
Compressão
-
CI
E
Descrição do ficheiro
Audio
Bit rate
-
CI
E
NLA
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Descrição do ficheiro
Audio
Resolução
-
CI
E
Descrição do ficheiro
Audio
Nº da faixa e tipo
-
CI
E
Descrição do ficheiro
Audio
Formato e versão
-
CI
E
Descrição do ficheiro
Audio
Encapsulação
-
CI
E
Descrição do ficheiro
Audio
Duração
-
CI
E
Descrição do ficheiro
Bases de dados
Tipo dos dados e categoria da
representação
-
CI
E
Descrição do ficheiro
Bases de dados
Limite mínimo do tamanho dos
valores dos dados
-
CI
E
Descrição do ficheiro
Bases de dados
Compressão
-
CI
E
Descrição do ficheiro
Bases de dados
Forma da representação e
layout
-
CI
E
Descrição do ficheiro
Bases de dados
Limite máximo do tamanho dos
valores dos dados
-
CI
E
Descrição do ficheiro
Bases de dados
Formato e versão
-
CI
E
Descrição do ficheiro
Executáveis
Tipo de programa e versão
-
CI
E
NLA
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Descrição do ficheiro
Imagem
Dimensões
-
CI
E
Descrição do ficheiro
Imagem
Espaço de cor
-
CI
E
Descrição do ficheiro
Imagem
orientação
-
CI
E
Descrição do ficheiro
Imagem
lookup table
-
CI
E
Descrição do ficheiro
Imagem
Compressão
-
CI
E
Descrição do ficheiro
Imagem
Gestão da cor
-
CI
E
Descrição do ficheiro
Imagem
Resolução tonal
-
CI
E
Descrição do ficheiro
Imagem
Cor
-
CI
E
Descrição do ficheiro
Imagem
Formato e versão
-
CI
E
Descrição do ficheiro
Imagem
Resolução
-
CI
E
Descrição do ficheiro
Texto
Divisão estrutural
-
CI
E
Descrição do ficheiro
Texto
Formato e versão
-
CI
E
NLA
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Descrição do ficheiro
Texto
Compressão
-
CI
E
Descrição do ficheiro
Texto
Comnjunto de caracteres
-
CI
E
Descrição do ficheiro
Texto
DTD associada
-
CI
E
Descrição do ficheiro
Video
Formato e versão
-
CI
E
Descrição do ficheiro
Video
Compressão
-
CI
E
Descrição do ficheiro
Video
Frame rate
-
CI
E
Descrição do ficheiro
Video
Dimensões das frames
-
CI
E
Descrição do ficheiro
Video
Duração
-
CI
E
Descrição do ficheiro
Video
Estrutura de codificação vídeo
-
CI
E
Descrição do ficheiro
Video
Som
-
CI
E
Requisitos conhecidos do sistema
-
-
-
CI
E
Requisitos de instalação
-
-
-
CI
E
NLA
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Informação de dispositivos de
armazenamento
-
-
-
CI
E
Inibidores de acesso
-
-
-
CI
E
Facilitadores do acesso
-
-
-
CI
E
Criador
-
-
-
PDI
A,D
Título
-
-
-
PDI
A,D
Data de criação
-
-
-
PDI
A,D
Editor
-
-
-
PDI
A,D
Identificador persistente
Agência responsável
-
-
PDI
A,D
Identificador persistente
Método de construção
-
-
PDI
A,D
Identificador persistente
Valor
-
-
PDI
A,D
URL
Data de validação
-
-
PDI
A
URL
Valor
-
-
PDI
A,D
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
d) A comunidade OCLC/RLG
Esta comunidade através do grupo de trabalho RLG (Research Libraries Group), já em
1998 mantinha uma matriz de metadados considerados essenciais para uma boa prática
de preservação de longo prazo. Considerava 16 elementos/metadados necessários para
preservar uma matriz digital a longo prazo, com particular incidência em ficheiros de imagem: Data; Operador; Produtor; Dispositivos de captura; Pormenores de captura; História
da mudança; Chave de validação; Encriptação; Marca de água; Resolução; Fonte, Cor;
Gestão da cor; Escala de cor/Escala de cinzentos; Dispositivos de controle.
Podemos verificar a ausência de metadados adequados a recursos digitais multimédia, páginas Web ou bases de dados, visto que o objectivo desta comunidade era no momento
preservar documentos digitalizados e não nascidos digitais.
Dado que um dos objectivos da OCLC é encontrar abrangência e consenso em simultâneo,
vamos encontrar na actualidade, uma grelha de metadados construída a partir das três em
comparação e também de metadados sugeridos no âmbito do WG (Working Group) propriamente dito e a proposta passa, portanto, a contemplar aspectos considerados “lacunas”
duma ou de outra.
Não devemos, contudo, perder de vista o aspecto ideossincrático de cada comunidade que
inibe por vezes a aproximação ao consenso e à interoperabilidade. Como exemplo extremo, podemos referir dificuldades na gestão dos identificadores dentro do próprio repositório. Os ISBN reportam-se a livros e não a páginas Web ou a imagens digitais e ainda existem alguns tipos de suportes que não possuem nenhum esquema de identificação associado. Esta situação leva à obrigação da referência de uma grande variedade de esquemas
globais dentro da mesma colecção multimédia, o que é considerado pela comunidade OCLC
como um obstáculo à determinação da identificação do pacote de informação para depósito. Este, idealmente, deveria ter associado um único esquema de identificação local e global. Integramos em seguida as matrizes de metadados, tanto da OCLC como do WG tal
como fizémos para as comunidades anteriores.
116
OCLC
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Infraestrutura técnica de objectos
complexos
-
-
-
CI
A,E
Descrição do ficheiro
-
-
-
CI
A,E
Requisitos de instalação
-
-
-
CI
A,E
Dimensões do objecto (em bytes)
-
-
-
CI
A,E
Inibidores de acesso
-
-
-
CI
A
Facilitadores do acesso
-
-
-
CI
A
Propriedades significativas
-
-
-
CI
A
Funcionalidade
-
-
-
CI
A
Descrição do conteúdo recuperado
-
-
-
CI
A
Perdas de funcionalidades
-
-
-
CI
A
Documentação
-
-
-
CI
A
Programas de representação
Processo de transformação
Aplicação de acesso
Documentação
CI
E
OCLC
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Programas de representação
Processo de transformação
Ferramenta de transformação
Documentação
CI
E
Programas de representação
Processo de transformação
Ferramenta de transformação
Formato de input
CI
E
Programas de representação
Processo de transformação
Aplicação de acesso
Formato de input
CI
E
Programas de representação
Processo de transformação
Ferramenta de transformação
Formato de output
CI
E
Programas de representação
Processo de transformação
Aplicação de acesso
Formato de output
CI
E
Programas de representação
Processo de transformação
Aplicação de acesso
Localização
CI
E
Programas de representação
Processo de transformação
Ferramenta de transformação
Localização
CI
E
Ambiente de hardware
Documentação
-
-
CI
E
Ambiente de hardware
Informação sobre o depósito
-
-
CI
E
Ambiente de hardware
Localização
-
-
CI
E
Ambiente de hardware
Requisitos de memória
-
-
CI
E
Ambiente de hardware
Requisitos de processador
-
-
CI
E
OCLC
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Língua do recurso
-
-
-
PDI
A
Língua dos metadados
-
-
-
PDI
A
Códigos de conteúdos
-
-
-
PDI
A
Tipo de objecto
-
-
-
PDI
A
Composição do objecto
-
-
-
PDI
A
Relações entre ficheiros
-
-
-
PDI
A
Identificador OCLC
-
-
-
PDI
A
Identificador standard
-
-
-
PDI
A
Localização dos objectos
-
-
-
PDI
A
Outros identificadores de metadados
-
-
-
PDI
A
Título
-
-
-
PDI
A,D
Criador
-
-
-
PDI
A,D
OCLC
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Editor
-
-
-
PDI
A,D
Data de criação
-
-
-
PDI
A,D
Descrição do conteudo
-
-
-
PDI
A,D
Descrição resumida do objecto
-
-
-
CI
A
Origem do objecto
-
-
-
PDI
A
Origem do objecto
História da custódia
-
-
PDI
A
Origem do objecto
Notas sobre a origem
-
-
PDI
A
Origem do objecto
Razão para preservação
-
-
PDI
A
História do processo - pré-ingestão
Datas limite
-
-
PDI
A
História do processo - pré-ingestão
Forma de condução do processo
-
-
PDI
A
História do processo - pré-ingestão
Linhas orientadoras usadas
-
-
PDI
A
História do processo - pré-ingestão
Mudanças nos recursos
-
-
PDI
A
OCLC
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
História do processo - pré-ingestão
Outros
-
-
PDI
A
História do processo - pré-ingestão
Razão da forma de apresentação
-
-
PDI
A
História do processo - pré-ingestão
Resultados
-
-
PDI
A
História do processo - pré-ingestão
Título do processo
-
-
PDI
A
Copyright
-
-
-
PDI
A
Notas locais
-
-
-
PDI
A
Propriedades significativas
-
-
-
CI
A
Funcionalidades
.
-
-
CI
A
Descrição do conteúdo representado
-
-
-
CI
A
Documentação
-
-
-
CI
A
Programas de representação
Documentação
-
-
CI
A
Programas de representação
Localização
-
-
CI
A
WG
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Aplicação de display/acesso
Documentação
-
-
CI
A
Aplicação de display/acesso
Localização
-
-
CI
A
Sistema operativo
Documentação
-
-
CI
A
Sistema operativo
Localização
-
-
CI
A,D
Sistema operativo
Nome
-
-
CI
A,D
Requisitos de memória
Documentação
-
-
CI
E
Informação de armazenamento
Documentação
-
-
CI
E
Localização de obtenção do
hardware
-
-
-
CI
E
Requisitos de periféricos
Documentação
-
-
CI
E
Identificação local
-
-
-
PDI
A,D
Identificação global
-
-
-
PDI
A,D
Relações entre conteúdos de
objectos
Identificação
-
-
PDI
A,D
WG
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Relações entre conteúdos de
objectos
Manifestação
-
-
PDI
A,D
Relações entre conteúdos de
objectos
Tipo de relação
-
-
PDI
A,D
Relações entre o conteúdo
intelectual dos objectos
Identificação
-
-
PDI
A
Relações entre o conteúdo
intelectual dos objectos
Tipo de relação
-
-
PDI
A
Origem do objecto
-
-
-
PDI
A
Pré-ingestão
-
-
-
PDI
A
Ingestão
-
-
-
PDI
A
História da manutenção no
repositório
-
-
-
PDI
A
Evento
Data
-
-
PDI
A
Evento
Designação
-
-
PDI
A
Evento
Notas
-
-
PDI
A
Evento
Procedimento
-
-
PDI
A
WG
ELEMENTOS DE METADADOS
SUB-ELEMENTOS_1
SUB-ELEMENTOS_2
SUB-ELEMENTOS_3
AIP
TIPO META
Evento
Responsabilidade
-
-
PDI
A
Evento
Resultado
-
-
PDI
A
Autenticação
-
-
-
PDI
A
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
4.3.2. Simulação de uma matriz de metadados de preservação
Com base nos modelos de matrizes de metadados apresentados pelas comunidades referidas e também no modelo proposto pela Biblioteca Nacional da Nova Zelândia184 já referido
atrás, fazemos uma proposta que pretende enquadrar-se na política de selecção de uma
comunidade nacional, onde o objectivo seja dirigido a publicações electrónicas nacionais,
documentos oficiais em formato digital, teses, dissertações e literatura cinzenta produzida
na comunidade científica nacional.
Qualquer destes recursos digitais pode ser composto por objectos simples e complexos e
vamos tentar articular os metadados associados com o modelo OAIS (vide Anexo 1).
O objectivo é criar um “Pacote de informação para depósito” contemplando a “Informação
sobre o conteúdo” e a “Informação descritiva para a preservação”.
Os critérios de criação dos metadados seguem de perto as comunidades que apresentámos
no ponto anterior. Optámos por considerar três agrupamentos de metadados relativos a:
1) objectos digitais
2) estratégias de preservação
3) ficheiros
Cada conjunto de metadados diz respeito a um único objecto lógico. O objecto pode ser
simples, p. ex., um texto em MsWord ou pode ser constituído por múltiplos ficheiros, p. ex.
uma publicação electrónica com vários ficheiros HTML, GIF, etc.
Através deste conjunto de metadados proposto para um Pacote de informação para
depósito pretende-se armazenar informação que nos permita tomar decisões sobre futuras
acções de preservação, assim como documentar as estratégias já implementadas, tais
como migrações ou emulações. Também se pretende manter informação detalhada sobre
os efeitos das opções estratégicas. Outra das preocupações diz respeito à identificação das
técnicas usadas para manter a autenticidade das matrizes de preservação, considerando
matriz de preservação uma cópia de qualidade que é sujeita a refrescamentos e migrações
assim que surgem problemas de obsolência ao longo do tempo.
Estes blocos de informação existem no âmbito da Informação descritiva para a preservação nas suas quatro vertentes: Informação sobre o conteúdo, Informação sobre a representação, Informação sobre o contexto e Informação de autenticação.
125
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
No que diz respeito à gestão dos próprios metadados, consideramos essencial que exista
identificação de quem executou as acções de preservação, que acções foram executadas e
quando tiveram lugar. Optámos por acrescentar os fundamentos da inclusão de cada um
dos elementos ou sub-elementos.
Para seguir de perto o modelo OAIS optámos pela utilização das abreviaturas AIP (Archive
information package), CI (Content information) e PDI (Preservation description information) que enquadram os elementos metadados propostos (Vide Anexo 1).
4.4. OS REPOSITÓRIOS DIGITAIS E A DESCOBERTA E CAPTURA DE METADADOS
Um dos objectivos da preservação de recursos que tem sido explicitado ao longo desta
tese, é a preocupação de deixar em herança um determinado espólio científico e cultural às
gerações futuras. Contudo, não é demais referir que dada a incerteza do ambiente tecnológico mesmo as gerações presentes podem ficar inibidas de aceder a qualquer recurso digital se este não tiver sido objecto de boas práticas na sua criação e manutenção.
Para que se encontre um determinado recurso na Internet existem motores de busca que o
procuram e o descobrem. Ao mesmo tempo, os repositórios também devem manter boas
práticas conducentes à viabilização dessa descoberta. É neste contexto que vamos encontrar o OAI-PMH (Open Archives Intitative Protocol for Metadata Harvesting) que consideramos dever ser implementado pelos repositórios digitais a montante e a jusante de todo o
processo de preservação.
Não podemos deixar de referir o serviço de acesso já implementado pelo projecto FEDORA
(vide 4.2.6).
4.4.1. O OAI-PMH (Open Archives Inititative Protocol for Metadata Harvesting)
Os objectivos da OAI185 (Open Archives Initiative) baseiam-se no desenvolvimento de padrões de interoperabilidade que facilitem a eficiência da disseminação de conteúdos. O OAI
visa melhorar o acesso a repositórios de publicações electrónicas e os seus públicos-alvo
encontram-se no ambiente académico.
184
185
http://www.natlib.govt.nz/en/whatsnew/4initiatives.html
LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) - Open Archives Initiative : frequently
asked questions (FAQ). Protocol version 2.0.
126
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
O protocolo OAI-PMH suporta variados esquemas de metadados. No mínimo, os repositórios devem ser capazes de devolver registos de metadados em formato DC sem qualificadores adicionais. Opcionalmente, um repositório pode também disseminar registos em outros
formatos186.
O protocolo OAI-PMH optou por aconselhar a utilização do formato DC por considerar que
os 15 elementos evoluíram ao longo dos últimos anos para um standard que dadas as suas
valências multidisciplinares tem aplicação como um formato comum.
O OAI-PMH e o DCMI mantêm em cooperação um esquema XML para DC sem qualificadores187.
4.4.2. O exemplo do serviço de acesso do Projecto FEDORA188
O projecto FEDORA (Flexible Extensible Digital Object and Repository Architecture) é um
repositório digital de sistema aberto (open source) que usa APIs (Application Program Interface) na forma de serviços Web. O sistema do repositório FEDORA encontra-se subdividido em três camadas : Uma camada para o acesso na Web, uma segunda camada que
contém o núcleo do subsistema e uma terceira camada que se destina ao armazenamento189.
Na perspectiva do acesso, a arquitectura do projecto FEDORA define a disseminação como
um fluxo de dados que devolve uma vista do conteúdo do objecto digital e que preenche
duas funções:
Responder tanto no âmbito genérico como específico
Disseminar os conteúdos em função das necessidades do utilizador
Logo, a funcionalidade mais interessante deste serviço de acesso é associar, a montante,
os recursos a determinadas comunidades de utilizadores, o que facilita a disseminação dos
recursos digitais e dos seus metadados, a pedido.
O recurso digital e os metadados são fluxos de dados contidos num objecto modelar. O
conteúdo do fluxo de dados é identificado através de um URL.
Apresentamos na Figura 8 o modelo de objecto do projecto FEDORA extraído da mesma
fonte citada atrás.
186
187
188
189
LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) – The Open Archives Initiative Protocol for
Metadata Harvesting. Protocol version 2.0.
http://www.openarchives.org/pipermail/oai-implementers/2001-December/000261.html
http://www.fedora.info
STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – The Fedora Project: an opensource digital object repository management system. D-Lib Magazine, 9 (4).
127
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Fig. 8 – Modelo de objecto190
O utilizador, pode ter inserida uma aplicação Web com capacidade para interagir com os
serviços de pesquisa FEDORA, ou pode também ser um Web browser ou ainda qualquer
cliente fora do espaço do projecto.
Dado que o formato de metadados utilizado por este projecto é o METS, que devido às suas características consegue facilmente garantir a interoperabilidade entre repositórios, podemos antever a rápida indexação automática e consequente descoberta dos recursos.
4.5. BOAS PRÁTICAS DE PRESERVAÇÃO RECOMENDADAS NA IMPLEMENTAÇÃO
DE UM REPOSITÓRIO DIGITAL
O primeiro passo a dar no caminho da criação de um repositório digital é, à semelhança de
um outro qualquer serviço, delimitar a sua missão e objectivos perante uma determinada
comunidade de potenciais utilizadores.
Nesta fase é necessário definir critérios sobre
que tipo de recursos o repositório vai armazenar
durante quanto tempo pretende manter esses recursos
qual o método de captura que pretende empreender
190
STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – Op. cit.
128
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Dependendo destas decisões de carácter político mas também técnico/administrativo e em
função do período de tempo em que se pretende manter os recursos, estes devem ser sujeitos a uma triagem e depositados separadamente por
alguns anos
indefinidamente
Em seguida podemos, p. ex., agrupar os recursos por afinidades e armazená-los em conjunto, segundo características que nos tragam vantagens no armazenamento e também no
acesso.
Consideramos que a metodologia de implementação deve percorrer as seguintes etapas191:
1) Implementação do modelo de referência OAIS (ISO 14721:2002).
2) Durante a fase de selecção dos recursos deve ser assegurado que:
Os recursos detêm condições tecnológicas capazes de manter a sua permanência no repositório
Foi efectuada a verificação da ausência de duplicados
Foi carregado o software adicional considerado necessário assim como os
códigos fonte quando for possível
Foi verificada a existência de restrições de copyright e estabelecidos os
contactos necessários com os responsáveis. Se não existir acordo os recursos devem ser preservados com indicação de acesso reservado
3) Fases de ingestão e depósito
Atribuição de um identificador único e persistente (além das suas valências
já referidas, facilitará também a possibilidade de cruzar referências dentro
do próprio repositório)
Criação de uma assinatura digital ou de um digest por forma a detectar
qualquer alteração produzida no fluxo de bytes.
Agrupar os objectos digitais em conjunto com os metadados em formato
ZIP ou TAR192 para assegurar que a sua estrutura se mantém intacta e
191
192
http://www.lib.ed.ac.uk/
http://www.webopedia.com/TERM/t/tar.html
129
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
que foi criado um fluxo de bytes. Este procedimento conduz à criação de
um pacote de informação para depósito
Envio do pacote para a área de depósito
Dado que os metadados de preservação sustentam todas as fases do processo de preservação é vital para o processo que todos os metadados possíveis sejam capturados durante
a fase de descoberta e captura dos recursos. Os metadados devem ser marcados em XML
e devem dividir-se em duas partes:
Informação descritiva para preservação – Gere a preservação do recurso
(informação sobre a referência + proveniência + contexto + autenticação)
Informação sobre a representação – Assegura que o fluxo de bytes possa
ser representado no futuro (informação sobre o ambiente tecnológico +
informação semântica + informação estrutural)
Deve verificar-se se os metadados sobre a representação que acompanham o recurso são
suficientemente relevantes e manter as seguintes boas práticas:
Depositar sempre que possível cópias de software de fontes abertas (open
source)
Depositar descrições de tipos MIME (Multipurpose Internet Mail Extensions)
em pacotes de informação para depósito separados, para utilização futura
quando necessário
Depositar as actualizações dos sítios Web com intervalos de tempo regulares
4. Fase de preservação
Enviar cópias dos pacotes de metadados descritivos para preservação XML
para a área de depósito. Os ficheiros XML serão depositados numa base de
dados específica
Incluir no pacote de metadados descritivos, informação sobre a referência,
contendo campos bibliográficos em DC para assegurar que o recurso possa
ser recuperado. Este procedimento facilita, p. ex., o mapeamento de registos MARC se for considerado necessário pelo repositório
130
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
Incluir no pacote de metadados descritivos para preservação a informação
sobre o contexto. Esta vai permitir manter a integridade contextual dos ficheiros, isto é, as suas relações com outros ficheiros no repositório
Incluir no mesmo pacote informação pormenorizada sobre a proveniência
de forma a permitir a confirmação de uma correcta aplicação das normas
na fase de ingestão (por vezes é necessário proceder a algumas alterações
dos sítios p. ex. para fazer face a activação automática de palavras passe,
etc.)
Incluir informação sobre a gestão dos direitos e todas as restrições de
acesso
Tal como temos vindo a referir de forma bastante acentuada ao longo de todo o trabalho é
vital que toda a informação acerca do ciclo de vida dos recursos digitais esteja registada e
depositada.
Os metadados devem reportar quando, como e por quem foi criado o recurso, que alterações ocorreram durante a preservação e quem tem a eles acesso depois de depositados.
Todos estes elementos são necessários na perspectiva da implementação sistemática de
um conjunto de boas práticas que conduzam a uma eficaz gestão da preservação e posterior acesso aos recursos.
131
4. METODOLOGIAS PARA A IMPLEMENTAÇÃO DE UM REPOSITÓRIO DIGITAL
132
5. CONCLUSÃO
5. CONCLUSÃO
O crescimento da Web na Internet para uma escala global deu-se muito rapidamente. É
talvez na História da Humanidade a difusão mais rápida de uma nova tecnologia que não
deixa de evoluir. Neste momento ocorre ume evolução significativa dado que novas arquitecturas substituem páginas estáticas por páginas dinâmicas, costumizadas, que são geradas no momento. Da mesma maneira, dado que a inovação não é linear, o desenvolvimento da Web é imprevisível.
A Web começou por ser software com base em protocolos para troca de documentos entre
cientistas e investigadores, usando a Internet para fins educacionais e de pesquisa. Nos
dias de hoje é quase essencialmente comercial e sujeita a investimentos extraordinários
como suporte tecnológico para a economia digital.
Os intervenientes, perante a constatação da incapacidade de liderar acções futuras em
ambiente tão incerto, tentam pelo menos influenciar o seu direccionamento e o World Wide Web Consortium193 é, nessa perspectiva o forum privilegiado.
Um repositório na Internet é inevitavelmente um novo tipo de organização, com competências para responder aos problemas do próprio ambiente. Este pode não estar sediado
num espaço físico, pode existir distribuído entre instituições em muitas localidades geográficas através de uma rede global.
A preservação digital é um problema com características de urgência na sociedade moderna e ao tentar assegurar a longevidade de uma herança cultural digital o homem enfrenta
os desafios do novo paradigma relacionados com a efemeridade dos recursos e das tecnologias.
Ao longo desta tese abordámos várias questões no âmbito do mesmo problema e enquadrámos o estado da arte a nível internacional.
193
http://www.w3c.org
133
5. CONCLUSÃO
Iniciámos o nosso trabalho com a caracterização de uma biblioteca digital quanto à funcionalidade, aos propósitos e ao tempo de vida pretendido e ponderámos as boas práticas de
preservação a ter em conta.
Estudámos em seguida o papel das instituições patrimoniais e a enorme responsabilidade
que detêm ao pretender deixar às gerações futuras uma herança cultural, histórica e científica em formato digital.
É no contexto das instituições patrimoniais que verificámos que há sociedades mais avançadas, onde inclusivamente já existem leis de depósito legal para recursos digitais e outras, tal como a realidade portuguesa, onde isso ainda não acontece. A proposta de diploma de depósito legal está a ser ultimada no momento em que escrevemos este texto.
Nela, felizmente, já se contempla o depósito digital.
A nível internacional, consideramos que a CDNL (Conference of Directors of National Libraries) e a Unesco têm um papel de liderança de extrema responsabilidade e que a sua orientação e recomendações devem ser tidas em conta também entre nós.
Abordámos em seguida a recolha e selecção dos recursos digitais tendo em conta as suas
características, o seu ciclo de vida e os objectivos do repositório.
No nosso entender, e no âmbito de uma instituição de tipo patrimonial, a selecção de recursos digitais deveria ser de tipo misto, à semelhança do que se passa por exemplo na
Biblioteca Nacional da Austrália. Se por um lado a captura automática de recursos através
da Web é a opção que reclama menos recursos financeiros e que cobre de forma mais
abrangente um determinado espaço geográfico ou temático, por outro, a selecção feita
através do elemento humano, garante menos ruído e maior objectividade. Esta opção considera-se à partida mais onerosa pois é necessário um maior número de recursos humanos
e ao mesmo tempo as suas competências devem ser de tipo especializado.
Em Portugal, na Biblioteca Nacional, existe uma política definida que visa seleccionar diversos tipos de recursos, tais como documentos oficiais, teses e dissertações e publicações
electrónicas nacionais ou que tenham interesse para o nosso país e outros documentos de
interesse patrimonial.
Voltando às opções de captura de recursos verificamos que ao optarmos por um sistema
misto de selecção e de snapshots cegos teríamos à nossa disposição não só os documentos
considerados mais importantes para a memória do nosso país como um enorme manancial
de conteúdos para estudos sociológicos futuros.
Considerámos também que é absolutamente indispensável que todas as fases do ciclo de
vida dos recursos digitais sejam cumpridas. Só através dessa boa prática se poderá garantir maior longevidade aos recursos digitais.
134
5. CONCLUSÃO
Desta forma, foram passados em revista não só a selecção mas também a identificação
persistente, a descrição, o armazenamento e finalmente a preservação e o acesso.
Na fase final do ciclo de vida dos recursos, considerámos as opções estratégicas de preservação como tópico da maior relevância porque é no seguimento das decisões sobre essa
matéria que os recursos sobreviverão por períodos de tempo mais ou menos longos. As
opções estratégicas de preservação estão, porém, condicionadas pelos orçamentos pois
haverá que despender recursos financeiros de certa forma avultados, consoante a opção.
Terá que se ter em conta que os recursos a preservar devem subsistir também em função
do acesso. Alguém, um dia, vai querer estudar esses recursos, vê-los, usá-los, e nem todas as estratégias permitem a recuperação do look-and-feel.
Mais uma vez ainda, vamos ter que procurar um equilíbrio entre a situação financeira do
momento e a forma que vão revestir os recursos digitais que constam da nossa herança.
O investimento no âmbito da preservação digital é muito avultado e deve ser pensado a
contar com a recolha, o processamento, a validação, a gestão e a documentação associadas, assim como com o armazenamento no repositório e as estratégias de preservação
adoptadas.
Idealmente, se o valor do recurso existir pelo artefacto teremos que investir em tecnologias de emulação; se não for esse o caso, sendo decidido que não existem problemas por
perdas do look-and-feel, então poder-se-á optar, por exemplo, pela migração ou pelo tipo
particular de migração que é a opção XML. É necessário ter em atenção as comunidades de
utilizadores e a capacidade que cada repositório tem de as projectar no futuro.
Ainda ao abordarmos as boas práticas verificámos que a existência de metadados percorre
todas as fases do ciclo de vida dos recursos digitais.
Considerámos fundamentalmente os metadados de preservação que são de três tipos:
a) descritivos,
b) administrativos
c) estruturais
A incidência sobre os últimos dois é relevante, pois é neste espaço que vamos encontrar as
descrições dos métodos e das estratégias tomadas para preservação. Os metadados descritivos destinam-se fundamentalmente às fases de acesso e estão para os recursos digitais como os formatos MARC (Machine Readable Cataloguing) para os recursos bibliográficos tradicionais.
135
5. CONCLUSÃO
Integrámos no nosso trabalho alguns esquemas de metadados que confirmam a necessidade destes acompanharem as comunidades temáticas. Foge à regra o conjunto de metadados Dublin Core (DC) criado no âmbito OCLC/NCSA para servir um leque alargado de
comunidades. Este é, por assim dizer, o standard mais genérico e simultaneamente mais
aplicável em qualquer situação que não envolva necessidades demasiado específicas.
Pudemos constatar no entanto, ao longo do trabalho, que o DC tem excelente capacidade
descritiva para servir o acesso, mas já o mesmo não se passa no que diz respeito à preservação e ao cumprimento da função dos metadados administrativos e estruturais de documentar a história do recurso com estratégias de preservação, componentes de hardware
e software, etc.
Ao atribuir-lhe qualificadores em larga escala é possível tornar o conjunto dos elementos
do DC eficiente em relação ao que cada comunidade pretende. É também de referir que
este formato possui enormes valências no que diz respeito à interoperabilidade entre repositórios.
No que diz respeito às metodologias para implementação de um repositório digital considerámos fundamental o investimento na confiabilidade, a qual só é atingível através da resolução de questões que dizem respeito a:
Aspectos legais onde é necessário ultrapassar a barreira dos direitos de autor e dos direitos de propriedade intelectual. Este assunto apresenta importância acrescida quando abordamos os momentos da disponibilização e
acesso. Cabe ao repositório digital negociar com os detentores dos direitos
os moldes do acesso e preparar a preservação destes recursos sem permitir a sua divulgação se o acordo entre as partes interessadas a isso conduzir. Quando os prazos legais previstos para a disponibilização pública forem atingidos então esses recursos serão libertados para consulta.
Aspectos financeiros provenientes dos altos custos que todo o processo de
preservação acarreta e que são muito difíceis de ultrapassar. Não existindo financiamento não existirá seguramente preservação. Esta situação é
idêntica à que vivem as bibliotecas com as necessidades de preservar documentos tradicionais para o futuro.
Aspectos relacionados com a gestão do risco que ameaça os repositórios
digitais e que se liga à integridade dos dados, à reparabilidade dos ficheiros, ao contexto e ligações entre ficheiros dentro do mesmo recurso, às
funcionalidades, ao pessoal e aos aspectos legais.
136
5. CONCLUSÃO
Aspectos relacionados com o acesso que visam a descoberta dos recursos
e a garantia da sua autenticidade.
Ainda em relação às metodologias de implementação de um repositório digital é o modelo
de referência OAIS desenvolvido no âmbito da NASA, que nos garante um enquadramento
genérico, aberto a qualquer comunidade favorecendo a interoperabilidade. Este modelo é
seguido pelos repositórios digitais mais relevantes à escala global. Verificámos que a comunidade CEDARS é aquela que pode servir de modelo a outras que, no momento, saberão detectar as suas divergências locais.
A existência de um bom núcleo de metadados administrativos é fundamental seja qual for
a comunidade em questão e dele vai depender a posterior recuperação dos recursos.
No seguimento desta investigação simulámos um conjunto de metadados preparado para
ajustar ao OAIS na forma de um pacote de informação para depósito enquadrável numa
determinada comunidade. Esta poderia porventura ser do mesmo teor da nacional, dado
que tivemos em vista a tipologia de recursos digitais aí preservados a longo prazo (Vide
Anexo 1).
No que diz respeito ao acesso como um dos objectivos da preservação consideramos a implementação do OAI-PMH um protocolo versátil e ao mesmo tempo uma norma capaz de
fornecer os meios para dar visibilidade aos metadados do próprio repositório e por outro
lado coligir os metadados recuperados de outros repositórios.
Sentimos ainda a necessidade de fornecer algumas orientações para a implementação de
um repositório digital confiável, o que concretizámos através dos seguintes tópicos:
Implementação do modelo de referência OAIS (ISO 14721:2002)
Assegurar que durante a fase de captura e selecção são seguidas as boas
práticas relativas a uma boa ingestão e armazenamento assim como se foi
verificada a existência de restrições de copyright.
Atribuição de identificadores únicos para as fases de ingestão e depósito
Inclusão de metadados de preservação que devem ser relativos a todas as
fases do ciclo de vida dos recursos
137
5. CONCLUSÃO
Ao finalizar este trabalho deparamo-nos com um horizonte de muito trabalho e muita investigação em qualquer dos pontos do ciclo de vida do recurso. Basicamente há a considerar:
A recolha dos recursos, assunto que é objecto das orientações mais díspares;
As opções dos suportes de armazenamento que para uns autores duram
cinquenta anos ou mesmo mais e para outros a sua duração é de dois ou
três anos;
As opções estratégicas de preservação onde reina a polémica entre os que
defendem incondicionalmente a preservação do look-and-feel e os que enfrentam a gestão do problema de forma mais moderada, considerando alternativas em função das comunidades de utilizadores, ou dos recursos financeiros e tecnológicos;
O acesso, um dos pontos fundamentais de todo este complicado processo,
onde apesar de tudo, encontramos alguma consensualidade, dado que, a
já experimentada interoperabilidade entre os sistemas com a existência do
padrão Z39.50, tem vindo a interligar a comunidade das bibliotecas;
Finalmente o elemento vital que percorre todas as fases e que é a criação
de metadados de preservação, assunto este amplamente tratado nesta
dissertação.
Pensamos que estudos biblio/sociométricos, devem estar na base de qualquer tentativa de
criação de repositórios digitais, de pequeno ou grande porte, e pensamos também que
deve ser amplamente desenvolvido trabalho ao nível da normalização da terminologia pois
esta está muito pouco estabilizada, o que dificulta o entendimento entre sistemas, ao nível
das pessoas e das máquinas.
É nossa profunda convicção que ultrapassadas todas as barreiras que referimos atrás poderemos garantir às gerações futuras o conhecimento e a plena fruição da sua memória.
138
BIBLIOGRAFIA
BIBLIOGRAFIA
ABID, Abdelaziz (2001) – Memory of the world : preserving our documentary heritage. 64th IFLA
General Conference, Amsterdam, 1998 http://www.ifla.org/IV/ifla64/099-69e.htm (Acedido em
2001-10-24)
ANSPER, Arne et al. (2001) - Efficient long-term validation of digital signatures. Lecture Notes in
Computer Science, 1992. (Proceedings. 4th International Workshop on Practice and Theory in
Public Key Cryptosystems, PKC 2001, Cheju Island, Korea, February 13-15, 2001)
http://www.cyber.ee/research/publ/longterm.pdf (Acedido em 2003-01-02)
APPS, Ann, MacINTYRE, Ross (2001) – Zetoc : a Dublin Core based current awareness service.
Proc. Int. Conf. On Dublin Core and Metadata Aplications, 2001, p. 227-234
http://jodi.ecs.soton.ac.uk/Articles/v02/i02/Apps/apps-v2.pdf (Acedido em 2003-01-08)
APPS, Ann, MacINTYRE, Ross (2001) – CABRef : Cross-referencing into an abstract database. Fifth
ICCC/IFIF Conference on Electronic Publishing, Canterbury, 2001,
http://epub.mimas.ac.uk/papers/appsmacep2001.pdf (Acedido em 2002-04-08)
ARVIDSON, Allan, PERSSON, Krister & MANNERHEIM, Johan (2000) - The Kulturarw3 Project : the
Royal Swedish Web Archiw3e: an example of "complete" colection of Web pages. IFLA Council
and General Conference, 66th, Jerusalem, 2000 http://www.ifla.org/IV/ifla66/papers/154157e.htm (Acedido em 2002-10-16)
ASCHENBRENNER, Andreas (2001) – Long-term preservation of digital material : building na archive do preserve digital cultural heritage from the Internet. Wien, Institut für Softwaretechnik
und Interaktive System. 110 p. (Diplomarbeit)
AUTENTICITY IN A DIGITAL ENVIRONMENT (2000) - Washington, CLIR, : p. 8-21. ISBN 1-8833477-7 http://www.clir.org/pubs/reports/pub92/pub92.pdf (Acedido em 2003-01-08)
BARTEL, J., et al. (2002) – Sygnature syntax and processing : W3C Recommendation. February.
http://www.w3.org/TR/xmldsig-core/ (Acedido em 2003-01-08)
BEAGRIE, Neil, GREENSTEIN, Daniel (1998) – A strategic policy for creating and preserving digital
collections : a report do the Digital Archiving Working Group. British Library Research and Innovation Report N. 167. 1998 http://ahds.ac.uk/strategic.pdf (Acedido em 2003-03-20)
139
BIBLIOGRAFIA
BEARMAN, David & TRANT, Jennifer (1998) – Autenticity of digital resources : towards a statement
of requirements in the research process. D-Lib Magazine, June.
http://www.dlib.org/dlib/june98/06bearman.html (Acedido em 2002-12-27)
BECKETT, Dave, MILLER, Eric & BRICKLEY, Dan (2002) – Expressing simple Dublin Core in
RDF/XML. Dublin Core Metadata initiative. http://dublincore.org/documents/2002/07/31/dcmesxml/ (Acedido em 2003-01-28)
BELLINGER, Meg (2002) - Understanding digital preservation : a report from OCLC. CLIR.
http://www.clir.org/pubs/reports/pub107/bellinger.html (Acedido em 2002-12-27)
BOGART, John W.C. Van (1995) - Magnetic tape storage and handling : a guide for libraries and
archives. Washington, The Commission on Preservation and Access & National Media Laboratory
http://www.clir.org/pubs/reports/pub54/ (Acedido em 2002-10-21)
BORBINHA, José (2001) - Metadata – Conceito e sua relevância para as bibliotecas. Actas do 7º
Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas. Porto, 2001
BORBINHA, José Luís et al. (2002) – Manifesto para a preservação digital. Cadernos BAD, N. 2.
CABRAL, Maria Luísa (1998) – Microfilmagem e digitalização : a coexistência pacífica. Páginas a&b,
2, p. 41-52
CABRAL, Maria Luísa (2002) – Preservation and conservation in South Europe : a survey among
national libraries. In : IFLA council and General Conference, 68th, Glasgow, 2002
http://www.ifla.org/IV/ifla68/papers/129-109e.pdf (Acedido em 2003-01-08)
CAMPOS, Fernanda Maria (2001) – Bibliotecas digitais : uma nova perspectiva de valorização e
acesso ao património cultural. In : Actas do 7º Congresso Nacional de Bibliotecários, Arquivistas
e Documentalistas, Porto, 2001.
CDNL (Conference of Directors of National Libraries) (1996) – The legal deposit of electronic publications. Unesco
http://www.unesco.org/Webworld/memory/Editorial (Acedido em 2002-09-26)
CLAVEL-MERRIN, Genevieve (2000) - NEDLIB list of terms. NEDLIB Report Series Editor., 17p.,
ISBN 906259151-5 (NEDLIB Report Series ; 7)
COMMISSION ON PRESERVATION AND ACCESS AND THE RESEARCH LIBRARIES GROUP – Preserving digital Information. Report of the Task Force on Archiving of Digital Information. 1996.
http://www.rlg.org/ArchTF/ (Acedido em Dezembro de 2001)
CONSULTATIVE COMMITTEE FOR SPACE DATA SYSTEMS (2002) – Reference Model for an Open
archive Information System (OAIS), Blue Book (CCSDS 650.0-B-1).
http://wwwclassic.ccsds.org/documents/pdf/CCSDS-650.0-B-1.pdf (Acedido em 2003-01-15)
CORDEIRO, Maria Inês (2001) – Tecnologias, bibliotecas e arquitectura de informação : dos sistemas aos objectos. In : Actas do 7º Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, Porto, 2001
140
BIBLIOGRAFIA
DCMI (2002) – DCMI elements and element refinements : a current list. Dublin Core Metadata initiative http://dublincore.org/usage/terms/dc/current-elements/ (Acedido em 2003-01-28)
DE NIET, Marco, OSKAMP, Liesbeth (2001) TEL Digital deposits : state of the art. 2nd draft version.
87 p. http://www.europeanlibrary.org/doc/tel_results_d11_v02.doc Acedido em 17 de Abril de
2002)
DIGITAL LIBRARIES : Future directions for a European Research Programme (2001) - DELOS
Brainstorming Report. San Cassiano, 2001. ERCIM-02-W02 http://delosnoe.iei.pi.cnr.it/activities/researchforum/Brainstorming/
brainstorming-report.pdf (Acedido em 2003-02-18)
DIGITAL PRESERVATION TESTBED WHITE PAPER (2001) – Migration : context and current status.
Den Haag, ICTU. http://www.digitaleduurzaamheid.nl/bibliotheek/docs/Migration.pdf (Acedido
em 2003-06-02)
DURANTI, Luciana (2001) – The long term preservation of authentic electronic records. In : APERS,
M. G. et al. (eds.): VLDB 2001, Proceedings of 27th International Conference on Very Large
Data Bases, September 11-14, 2001, Roma, Italy. Morgan Kaufman, ISBN 1-55860-804-4
http://www.vldb.org/conf/2001/P625.pdf (Acedido em 2003-01-06)
DUREAU, J. M., CLEMENTS, D. W. G. - Princípios para a preservação e conservação de espécies
bibliográficas. – Edição em língua portuguesa por Maria da Conceição Casanova, Maria Fernanda
Casaca Ferreira, Maria Luísa Macedo. Lisboa : Biblioteca Nacional, 1992, 26 p., ISBN 972-565155-3. Edição original publicada por IFLA Section on Conservation, Netherlands em 1986.
EITELJORG II, Harrison et al. (2002) - Archaeology Data Service CAD : A Guide to Good Practice.
AHDS.
http://ads.ahds.ac.uk/project/goodguides/cad/ (Acedido em 2002-09—16)
GRANGER, Stewart (2000) - Emulation as a digital preservation strategy. D-Lib Magazine, 6 (10)
http://www.dlib.org/dlib/october00/granger/10granger.html (Acedido em 2003-01-09)
GROUT, Catherine, PURDY, Phill & RYMER, Janine (>2000) - Creating digital resources for the visual arts : standards and good practice. AHDS/VADS, Guides to good practice
http://vads.ahds.ac.uk/guides/creating_guide/contents.html (Acedido em 2002-06-25)
HENDLEY, Tony (1998) – Comparison of methods and costs of digital preservation. British Library
Research and Inovation Report; 106. ISBN 0-7123-9713-2
http://www.ukoln.ac.uk/services/elib/papers/tavistock/hendley/hendley.html (Acedido em
2003-03-18)
HIRTLE, Peter (2000) – Archival authenticity in a digital age. In : Autenticity in a digital environment. Washington, CLIR : 8-21. ISBN 1-88334-77-7.
http://www.clir.org/pubs/reports/pub92/hirtle.html (Acedido em 2002-12-31)
141
BIBLIOGRAFIA
HODGE,G.M. (2000) - Best practices for digital archiving : an information life cycle approach. D-Lib
Magazine [em linha], January v. 6, no. 1. [referência de 25 de Junho de 2002]. Disponível na
Internet em :
http://www.dlib.org/dlib/january00/01hodge.html
HODGE,G.M. & CARROLL, Bonnie C. (1999) - Digital electronic archiving : the state of the art and
the state of the practice. International Council for Scientific and Technical Information.
http://www.icsti.org/99ga/digarch99_TOCP.pdf (Acedido em 2002-06-25)
HOEVEN, Hans van der & ALBADA, Joan van (1996) - Lost memory : libraries and archives destroyed in the Twentieth Century. Paris, UNESCO, 70 p.
http://www.unesco.org/Webworld/mdm/administ/pdf/LOSTMEMO.PDF (Acedido 2002.12.10)
IBM/KB (2001) – Long term preservation study. DNEP. http://www.kb.nl/kb/ict/dea/ltp/ltpstudyoverview.pdf (Acedido em 2003-01-12)
JONES, Maggie & BEAGRIE, Neil (2001) – Preservation management of digital materials : a handbook. London, The British library, 139 p. ISBN 0-7123-0886-5
KAHLE, Brewster (2002) – The Internet Archive. RLG Diginews, 6 (2) , p. 1-7
http://www.rlg.org/preserv/diginews/diginews6-2.html (Acedido em 10.12.2002)
KISLOVSKAY, Galina A. (2000) - A good beginning makes a good ending ? In : Preservation
management : between policy and practice. ECPA, The Hague, 1999.
http://www.knaw.nl/ecpa/PUBL/pmc.pdf (Acedido em 2002.09.24)
Koman, Richard (2002) – How the wayback machine works. The O´Reilly Network.
http://www.oreillynet.com/lpt/a/1295 (Acedido em 2003-01-20)
KOVACS, Diane K , ELKORDY, Angela (2000) – Collection development in cyberspace : building an
electronic library collection. Library Hi Tech, 18 (4), p. 335-359
KUNY, Terry (1998) – The digital dark ages? Challenges in the preservation of electronic information. International Preservation News, 17.
http://www.ifla.org/VI/4/news/17-98.htm#2 (Acedido em 2002-05-23)
LAGOSE, Carl (2001) – Keeping Dublin Core simple ; cross domain discovery or resource description ? D-Lib Magazine, 7 (1), 13 p.
http://www.dlib.org/dlib/january01/lagoze/01lagoze.html (Acedido 2002-11-29)
LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) - Open Archives Initiative : Frequently
Asked Questions (FAQ). Protocol version 2.0 (Document version 2002/06/10T11:00:00Z)
http://www.openarchives.org/documents/FAQ.html (Acedido em 2003-02-27)
LAGOZE, Carl & SOMPEL, Herbert van de (Eds.) (2002) – The Open Archives Initiative Protocol for
Metadata Harvesting. Protocol version 2.0. (Document version 2002/12/19T16:00 :00Z)
http://www.openarchives.org/documents/FAQ.html (Acedido em 2003-02-27)
142
BIBLIOGRAFIA
LAWRENCE, Gregory W. et al. (2000) Risk management of digital information : a file format investigation. Council of Library and Information Resources
http://www.clir.org/pubs/reports/pub93/contents.html (Acedido em 2003-01-09)
LOR, Peter Johan, SONNEKUS, Elisabeth A. S. (1997) Guidelines for legislation for national library
services. UNESCO.
http://www.unesco.org/Webworld/nominations/guidelines1_h.htm (Acedido em 2002-09-25)
LORIE,R.A. (2001) The long term preservation of digital information. RLG DigiNews. 5 (3)
http://www.rlg.org/preserv/diginews/diginews5-3.html (Acedido em 2002-11-10)
LOPES, Maria Inês (1998) – As bibliotecas e a organização do conhecimento : evolução e perspectivas. Leituras : Rev. Bib. Nac., Lisboa, S. 3, N. 2
LOPES, Pedro Faria, CARDOSO, Gustavo & MOREIRA, Maria Vasconcelos (2002) - Preservação de
publicações electrónicas na Internet: os arquivos imperfeitos. Cadernos BAD, N. 2.
LUNN, Jean (Prep.) (1981) – Guidelines for legal deposit legislation. Paris, General Information
Programme and UNISIST – Unesco. (PGI-81/WS/23)
LUPOVICI, Catherine (1998) – L’information bibliographique des documents electroniques. B.B.F.
43 (4) http://www.enssib.fr/bbf/bbf-98-4/09-lupovici.pdf (Acedido em 2003-03-20)
LUPOVICI, Catherine (2001) – Les besoins et les données techniques de preservation. 67th IFLA
Council and General Conference, Boston, 2001
http://www.ifla.org/IV/ifla67/papers/163-168f.pdf (Acedido em 04.09.2002)
LUPOVICI, Catherine, MASANÈS, Julien (2000) – Metadata for the long term preservation of electronic publications. Nedlib Report Series; 2. ISBN 906259146-9
LUPOVICI, Catherine & MASANÈS, Julien (eds.)(2001) - What's next for Digital Deposit Libraries?
Preserving online content for future generation. In : 5th European Conference on Research and
Advanced Technology for Digital Libraries. ECDL Workshop. Darmstadt, 2001.
http://bibnum.bnf.fr/ecdl/2001/index.html (Acedido em 2002.12.15)
LYMAN, Peter (2002) - Archiving the World Wide Web. In : Building a national strategy for digital
preservation : issues in digital media archiving. CLIR. ISBN 1-887334-91-2.
http://www.clir.org/pubs/reports/pub106/Web.html (Acedido em 2003-01-21)
LYNCH, Clifford (1999) - Canonicalization : a fundamental tool fo facilitate preservation and management of digital information. D-Lib Magazine, 5 (9).
http://www.dlib.org/dlib/september99/09lynch.html (Acedido em 2003-01-02)
LYNCH, Clifford (2000) - Authenticity and integrity in the digital environment : an exploratory
analysis of the Central Role of Trust. In: Authenticity in a digital environment. Washington,
CLIR. http://www.clir.org/pubs/reports/pub92/pub92.pdf (Acedido em 2003-01-02)
MIGRATION : context and current status (2001) - The Hague, Digital preservation testbed white
paper, ICTU http://www.digitaleduurzaamheid.nl/bibliotheek/docs/Migration.pdf (Acedido em
2003-01-09)
143
BIBLIOGRAFIA
NLA (2002) – A digital preservation policy for the National library of Australia.
http://www.nla.gov.au/policy/digpres.html (Acedido em 2002-09-29)
OCLC/RLG Working Group on preservation metadata (2001) - Preservation metadata for digital objects : a review of the satte of the art : a white paper. 49 p.
http://www.oclc.org/digitalpreservation/presmeta_wp.pdf. (Acedido em 16.01.2002)
OCLC/RLG Working Group on preservation metadata (2001) - A recommendation for content information. 19 p. http://0clc.org/research/pmwg/contentinformation.pdf (Acedido em
14.04.2002)
OCLC/RLG Working Group on preservation metadata (2002) – Preservation metadata and the OAIS
Information Model : a metadata framework to support the preservation of digital objects: a report. 51 p. http://oclc.org/research/pmwg/ (Acedido em 2003-01-09)
PASKIN, Norman (2003) – The DOI handbook. 3rd ed. International DOI Foundation.
http://www.doi.org/handbook_2000/DOIHandbookv3-0-0.pdf (Acedido em 2003-05-28
PHILIPS, Margaret E. (2001) - Ensuring long-term access to online publications. Journal of Electronic Publishing, 4 (4). 9 p. http://www.press.umich.edu/jep/04-04/phillips.html (Acedido em
2003-02-23)
POLIVY, Daniel J. & TAMASSIA, Roberto (2002) - Authenticating distributed data using Web services and XML signatures. Proc. ACM Workshop on XML Security, ACM Press, 2002
http://www.cs.brown.edu/cgc/stms/papers/xmlsec2002.pdf (Acedido em 2003-01-06)
RAUBER, Andreas & ASCHENBRENNER, Andreas (2001) - Part of our culture is born digital : on efforts to preserve it for future generations. Trans - Internet-Zeitschrift für Kulturwissenschaften.
10 http://www.ifs.tuwien.ac.at/~aola/publications/trans10.html (Acedido em 2003-01-20)
RLG-OCLC (2002) - Trusted digital repositories : attributes and responsabilities, Mountain
View:Research Libraries Group. http://www.rlg.org/longterm/repositories.pdf (Acedido em
2003-03-20)
ROSS. Seamus (2000) – Changing trains at Wigan : digital preservation and the future of scholarship. London, National Preservation Office, 44 p.
http://www.bl.uk/services/preservation/occpaper.pdf (Acedido em 2003-03-20)
ROTHENBERG, Jeff (1995) – Ensuring the longevity of digital documents. Scientific American, 272
(1), p. 24-29
ROTHENBERG, Jeff (1999) – Ensuring the longevity of digital information. CLIR. (Expanded version) http://www.clir.org/pubs/archives/ensuring.pdf (Acedido em 2002-12-27)
ROTHENBERG, Jeff (1999) - Avoiding Technological Quicksand: Finding a Viable Technical Foundation for Digital Preservation. CLIR http://www.clir.org/pubs/reports/rothenberg/contents.html
(Acedido em 21.10.2002)
ROTHENBERG, Jeff (2000) - An experiment in using emulation to preserve digital publications. Den
Haag, Koninklijke Bibliotheek. 70 p. ISBN 9062-59-1442
144
BIBLIOGRAFIA
RUSSEL,Kelly & SERGEANT,Derek (1999) - The Cedars project : implementing a model for distributed digital archives. RLG DigiNews, 3 (3) http://www.rlg.ac.uk/preserv/diginews/diginews33.html (Acedido em 2003-01-20)
SHAFER, Keith (s.d.) – Introduction to Persistent Uniform Resource Locators.
http://purl.oclc.org/docs/inet96.html (Acedido em 2002.07.08)
STAPPEL, Johan, DE NIET, Marco, JOCHUM-STARK, Dorothea (2001) – TEL Metadata : state of the
art review. 3rd and final draft review. 81 p.
http://www.europeanlibrary.org/doc/tel_results_d31_v03.doc (Acedido em 2002-09-24)
STAPELS, Thornton, WAYLAND, Ross & PAYETTE, Sandra (2003) – The Fedora Project: an opensource digital object repository management system. D-Lib Magazine, 9 (4).
http://www.dlib.org/dlib/april03/staples/04staples.html (Acedido em 2003-06-16)
TAMASSIA, Roberto (2001) Efficient low-cost authentication of distributed data and transactions.
Conduit 10 (2) http://www.cs.brown.edu/cgc/stms/papers/conduit2001.pdf (Acedido em 200301-08)
VEEN, Theo van & CLAYPHAN, Robina (2002) – Metadata in the context of the European Library
Project. Proc. Int. Conf. Dublin Core and Metadata for e-Communities. Florence, 2002.
http://www.bncf.net/dc2002/program/ft/paper2.pdf (Acedido em 2003-02-27)
WEBER, Hartmut (1993) - Opto-electronic storage : an alternative to filming ? CLIR - Commission
on Preservation and Access. http://www.clir.org/pubs/reports/Weber/Weber.html (Acedido em
2002-12-27)
WHEATLEY, Paul (2001) – Migration : a CAMiLEON discussion paper. Ariadne, 29
http://www.ariadne.ac.uk/issue29/camileon/ (Acedido em 2003-01-08)
WERF, Titia van der (2000) – CDNL/CENL activities with identifiers. 66th IFLA Council and General
Conference. Jerusalém, 2000, 5 p. http://www.ifla.org/IV/ifla66/papers/033-82e.htm (Acedido
em 2002-12-27)
WERF-DAVELAAR, Titia van der (1999) – Long-term preservation of electronic publications : the
NEDLIB project. D-Lib Magazine, 5 (9)
http://www.dlib.org/dlib/september99/vanderwerf/09vanderwerf.html (Acedido em 2003-0130)
WENDLER, R. – Metadata in the library. LDI Update. Harvard University Library Notes, N. 1286,
1999, p. 4-5. http://hul.harvard.edu/publications/library_notes/pdfs/HULN_1286.pdf (Acedido
em 2002-01-16)
145
ANEXO 1
SIMULAÇÃO DE MATRIZ DE METADADOS
DE PRESERVAÇÃO
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
OBJECTO
Sub-elementos:
Nome do objecto
AIP:
CI
Definição:
Nome dado pelo criador/seleccionador
Fundamento:
Fornece identificação rápida
Obrigatório:
Sim
Formato:
Texto
Exemplo:
Mário de Sá Carneiro, 1890-1916
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Partilha Metadados descritivos
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Nº de referência
OBJECTO
Sub-elementos:
AIP:
CI
Definição:
Nº existente na origem
Fundamento:
Obrigatório:
Relaciona inequivocamente metadados administrativos de
preservação e descritivos
Sim
Formato:
Depende da aplicação
Exemplo:
BN B 11401V
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Partilha Metadados descritivos
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
ID do Objecto
OBJECTO
Sub-elementos:
AIP:
CI
Definição:
Identificador interno do repositório
Fundamento:
Cada objecto requer uma identificação inequívoca no repositório
Obrigatório:
Sim
Formato:
Número sequencial
Exemplo:
500
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Partilha Metadados descritivos
Notas:
Nenhuma
Página 1 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
OBJECTO
Sub-elementos:
Identificador persistente
AIP:
CI
Definição:
Identificação internacional para objectos digitais
Fundamento:
Obrigatório:
Cada objecto requer uma identificação inequívoca a nível global e
não local
Sim
Formato:
PURL
Exemplo:
http://purl.pt/1
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Partilha Metadados descritivos
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Localização no file system
OBJECTO
Sub-elementos:
AIP:
CI
Definição:
Localização do objecto depositado no file system
Fundamento:
Obrigatório:
Necessário para gerir e fornecer acesso administrativo no
repositório
Sim
Formato:
Texto
Exemplo:
...\objectos\preservação\
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Data criação matriz preserv.
OBJECTO
Sub-elementos:
AIP:
CI
Definição:
Data em que a matriz de preservação entrou no repositório
Fundamento:
Obrigatório:
A data relacionada com outros metadados demonstra a
responsabilidade do repositório
Sim
Formato:
aaaammdd
Exemplo:
20030205
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
A data deve ser expressa num formato normalizado
Página 2 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
OBJECTO
Sub-elementos:
Composição técnica
AIP:
CI
Definição:
Obrigatório:
Descreve aspectos técnicos do objecto. Inclui o nº de ficheiros e o
nº total de ficheiros MIME
Gerir a preservação obriga a que se conheça o estrutura do
objecto lógico assim como os componentes individuais
Sim
Formato:
Texto
Exemplo:
Composto por 20 ficheiros - 14 gif, 3 audio/wav, 3 texto e 2 .exe
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Identifica o objecto como simples ou complexo
Grupo Metadados
Elementos Metadados:
Tipo de estrutura do objecto
OBJECTO
Sub-elementos:
Fundamento:
AIP:
CI
Definição:
O tipo de objecto a descrever no registo de metadados
Fundamento:
Obrigatório:
A determinação da estratégia de preservação depende do
conhecimento da estrutura do objecto
Sim
Formato:
Texto
Exemplo:
Imagem, Recurso interactivo
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Partilha Metadados descritivos
Notas:
Lista de tipos do DCMI pode ser útil
Grupo Metadados
Elementos Metadados:
Ambiente hardware
OBJECTO
Sub-elementos:
AIP:
CI
Definição:
Ambiente de hardware necessário para a preservação da matriz
Fundamento:
Obrigatório:
Identificação do mínimo de requisitos de hardware para a matriz
de preservação correr
Sim
Formato:
Texto
Exemplo:
IBM PentiumIII PC com 256 MB RAM
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Página 3 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
OBJECTO
Sub-elementos:
Ambiente software
AIP:
CI
Definição:
Ambiente de softwareIde necessário para a preservação da matriz
Fundamento:
Obrigatório:
Identificação do mínimo de requisitos de software para a matriz
de preservação correr
Sim
Formato:
Texto
Exemplo:
Windows 2000 Versão 5 - Build 2195 Pack 2
Fonte:
Entrada manual
Sobreposição:
Nenhuma
Notas:
Pode-se acrescentar se a última versão é compatível com a
anterior. Também se são necessários plugg-ins ou requisitos
especiais de memória, etc.
Grupo Metadados
Elementos Metadados:
Requisitos de instalação
OBJECTO
Sub-elementos:
AIP:
CI
Definição:
Fundamento:
Requisitos especiais necessários para instalar o objecto.
Instruções ou nºs de série, etc.
Fornecer acesso a objectos com requisitos especiais de instalaçã
Obrigatório:
Não
Formato:
Texto
Exemplo:
Nºs de série, ou ficheiros readme.txt
Fonte:
Entrada manual
Sobreposição:
Nenhuma
Notas:
Esta informação é particulamente importante para futuras
operações de migração de dados
Grupo Metadados
Elementos Metadados:
Inibidores de acesso
OBJECTO
Sub-elementos:
AIP:
CI
Definição:
Obrigatório:
Métodos utilizados para restringir o acesso, tais como
encriptação que podem ter impacto nos procedimentos de
preservação
Na ausência desta informação pode não ser possível aceder ao
objecto ou migrá-lo
Não
Formato:
Texto
Exemplo:
Passwords. Chaves de encriptação, etc.
Fonte:
Entrada manual
Sobreposição:
Nenhuma
Notas:
Nenhuma
Fundamento:
Página 4 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
OBJECTO
Sub-elementos:
Facilitadores de acesso
AIP:
CI
Definição:
Obrigatório:
Métodos utilizados para favorecer o acesso à matriz de
preservação que devem ser preservados ao longo do tempo
Possibilitar a activação dos facilitadores de acesso em qualquer
acção de preservação
Não
Formato:
Texto
Exemplo:
O objecto contém links entre os ficheiros
Fonte:
Entrada manual
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Quirks
OBJECTO
Sub-elementos:
Fundamento:
AIP:
CI
Definição:
Fundamento:
Quaisquer características do original que podem parecer perdas
de funcionalidade ou mudança do look-and-feel numa matriz de
preservação
Evitar o desperdício de tempo com problemas inerentes ao origina
Obrigatório:
Não
Formato:
Texto
Exemplo:
Fonte:
Nos objectos produzidos nas versões HTML anteriores à versão
4, a etiqueta do formato texto já não é suportada
Entrada manual
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Autenticação
OBJECTO
Sub-elementos:
AIP:
PDI
Definição:
Meios técnicos de autenticação de objectos
Fundamento:
Verificar e manter a integridade dos dados
Obrigatório:
Sim
Formato:
Texto
Exemplo:
Aplicação de checksum
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Página 5 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
OBJECTO
Sub-elementos:
Criador dos metadados
AIP:
PDI
Definição:
Nome da pessoa ou organização criadora dos metadados
Fundamento:
Registar a história da responsabilidade da criação dos metadados
Obrigatório:
Sim
Formato:
Texto
Exemplo:
Lurdes Saramago, FCUL
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Data criação registo metadados
OBJECTO
Sub-elementos:
AIP:
PDI
Definição:
Data da criação do registo de metadados
Fundamento:
Fornece possibilidade de saber quando o registo foi criado
Obrigatório:
Sim
Formato:
aaaammdd
Exemplo:
20030306
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Observações
OBJECTO
Sub-elementos:
AIP:
PDI
Definição:
Obrigatório:
Qualquer informação considerada pertinente para a preservação
do objecto ou ficheiros
Cobrir qualquer informação que pode não caber nas outros
campos
Não
Formato:
Texto
Exemplo:
Fonte:
Este objecto pode ser aberto unicamente através de uma drive
local
Entrada manual
Sobreposição:
Nenhuma
Notas:
Nenhuma
Fundamento:
Página 6 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
ID do objecto
AIP:
PDI
Definição:
Identificador interno do repositório
Fundamento:
Cada objecto requer uma identificação inequívoca no repositório
Obrigatório:
Sim
Formato:
Número sequencial
Exemplo:
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Partilha Metadados descritivos
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Qual a estratégia
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
AIP:
PDI
Definição:
Descrição do processo
Fundamento:
Obrigatório:
Identificação de cada tipo de processo de preservação de uma
matriz
Sim
Formato:
Texto
Exemplo:
Migração por obsolência
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Motivo da estratégia
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
AIP:
PDI
Definição:
Motivação para aplicação da estratégia
Fundamento:
Motivação da decisão sobre a estratégia
Obrigatório:
Sim
Formato:
Texto
Exemplo:
Criação de uma matriz num formato actual
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Página 7 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
Operador
AIP:
PDI
Definição:
Nome da pessoa ou organização que levou a cabo a operação
Fundamento:
Obrigatório:
Fornece informação acerca da pessoa/ organização que levou a
cabo a operação
Sim
Formato:
Texto
Exemplo:
Lurdes Saramago, FCUL
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Autorização
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
AIP:
PDI
Definição:
Obrigatório:
Nome da pessoa ou organização responsável pela aprovação da
estratégia
Fornece informação acerca da pessoa/ organização que tomou a
decisão
Sim
Formato:
Texto
Exemplo:
Lurdes Saramago, FCUL
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Data da autorização
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
Fundamento:
AIP:
PDI
Definição:
Data da autorização da estratégia
Fundamento:
Obrigatório:
Fornece possibilidade de saber quando for autorizado o processo
de conversão
Sim
Formato:
aaaammdd
Exemplo:
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Página 8 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
Hardware usado
AIP:
PDI
Definição:
Todo o hardware usado na operação
Fundamento:
Obrigatório:
Fornece a história do hardware usado para executar a operação e
identifica os componentes necessários a reter para uso futuro
Não
Formato:
Texto
Exemplo:
Drive de disketes de 5 1/4''
Fonte:
Entrada manual
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Software usado
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
AIP:
PDI
Definição:
Todo o software usado na operação
Fundamento:
Obrigatório:
Fornece a história do software usado para executar a operação e
identifica os componentes necessários a reter para uso futuro
Não
Formato:
Texto
Exemplo:
MS Word 2000
Fonte:
Entrada manual
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Etapas
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
AIP:
PDI
Definição:
Descrição completa das acções de preservação
Fundamento:
Fornece informação que permite reverter o processo ou repeti-lo
Obrigatório:
Sim
Formato:
Texto
Exemplo:
Fonte:
Doc. em Wordstar/Migração do doc. Para MS Word
2000/Mudança de nome do ficheiro/Testes de
fidelidade/Colocação da matriz de preservação do repositório
digital
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Página 9 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
Resultado
AIP:
PDI
Definição:
Resultados da estratégia
Fundamento:
Obrigatório:
Fornece um registo de resultados resultantes da estratégia de
preservação. Inclui a confirmação das mudanças pretendidas
Sim
Formato:
Texto
Exemplo:
Migração bem sucedida
Fonte:
Entrada manual
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Linhas orientadoras
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
AIP:
PDI
Definição:
Todas a normas utilizadas durante as acções de preservação
Fundamento:
Fornece consistência ao processo
Obrigatório:
Sim
Formato:
Texto
Exemplo:
Manual de Operações de preservação digital X
Fonte:
Entrada manual
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Data de conclusão do processo
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
AIP:
PDI
Definição:
Data e hora da conclusão do processo
Fundamento:
Obrigatório:
Identifica a sequência das acções de preservação significantes
para a história do objecto
Sim
Formato:
aaaammdd
Exemplo:
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Página 10 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
ESTRATÉGIA DE
PRESERVAÇÃO
Sub-elementos:
Observações
AIP:
PDI
Definição:
Obrigatório:
Qualquer informação considerada pertinente para a preservação
do objecto ou ficheiros
Cobrir qualquer informação que pode não caber nas outros
campos
Não
Formato:
Texto
Exemplo:
Fonte:
A migração foi complicada pelo nº elevado de links de ficheiros de
gráficos
Entrada manual
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
ID do objecto
FICHEIROS
Sub-elementos:
Fundamento:
AIP:
PDI
Definição:
Identificador interno do repositório
Fundamento:
Cada objecto requer uma identificação inequívoca no repositório
Obrigatório:
Sim
Formato:
Número sequencial
Exemplo:
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
ID do ficheiro
FICHEIROS
Sub-elementos:
AIP:
PDI
Definição:
Identificador interno do repositório
Fundamento:
Cada objecto requer uma identificação inequívoca no repositório
Obrigatório:
Sim
Formato:
Número sequencial
Exemplo:
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Página 11 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
FICHEIROS
Sub-elementos:
Contexto estrutural
AIP:
PDI
Definição:
Obrigatório:
Informação acerca da localização de um ficheiro no contexto do
objecto lógico
Fornece um registo acerca das principais relações entre objectos
complexos ou grupos de objectos
Não
Formato:
Texto
Fundamento:
Exemplo:
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Nome do ficheiro e extensão
FICHEIROS
Sub-elementos:
AIP:
PDI
Definição:
Nome e extensão do ficheiro
Fundamento:
Permite identificar o ficheiro em conjunto com o ID do objecto
Obrigatório:
Sim
Formato:
Texto
Exemplo:
100_20.doc
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Dimensão do ficheiro
FICHEIROS
Sub-elementos:
AIP:
PDI
Definição:
Fundamento:
Espaço ocupado por um ficheiro no servidor, expresso num
formato normalizado
Facilita o planeamento de depósito no repositório
Obrigatório:
Sim
Formato:
Abreviaturas normalizadas
Exemplo:
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Página 12 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
FICHEIROS
Sub-elementos:
Data e hora da criação do ficheiro
AIP:
PDI
Definição:
Fundamento:
Data e hora em que o ficheiro foi criado, retirada dos cabeçalhos
do ficheiro
Fornece informação de autenticação
Obrigatório:
Não
Formato:
aaaammdd
Exemplo:
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Tipos e formatos MIME
FICHEIROS
Sub-elementos:
AIP:
PDI
Definição:
Tipo de ficheiro ou formato, em regra um formato MIME
Fundamento:
Obrigatório:
Fornece informação sobre as ferramentas que podem abrir o
ficheiro e ajuda a identificar os ficheiros de tipos particulares
Sim
Formato:
Texto
Exemplo:
Imagem/gif ; aplicação/msword
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
Versão
FICHEIROS
Sub-elementos:
AIP:
PDI
Definição:
Versão do formato do ficheiro
Fundamento:
Obrigatório:
Fornece informação sobre as ferramentas que podem abrir o
ficheiro e ajuda a identificar os ficheiros de tipos particulares
Não
Formato:
Texto
Exemplo:
MSWord 2000
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Página 13 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
FICHEIROS
Sub-elementos:
Indicador global
AIP:
PDI
Definição:
No caso do objecto ser complexo, é o ficheiro global
Fundamento:
Obrigatório:
Identifica qual o ficheiro necessário para representar um objecto
complexo integralmente
Não
Formato:
Texto
Exemplo:
Index.html / Start.exe
Fonte:
Entrada manual
Sobreposição:
Nenhuma
Notas:
Nenhuma
Grupo Metadados
Elementos Metadados:
IMAGEM
FICHEIROS
Sub-elementos:
Resolução
AIP:
PDI
Definição:
Resolução especial da imagem expressa em pixels por cm ou
dots por cm
Fundamento:
Obrigatório:
Formato:
Exemplo:
600 dpi ; 1500 d/cm
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
IMAGEM
FICHEIROS
Sub-elementos:
Dimensões
AIP:
PDI
Definição:
Dimensões da imegem expressa em pixels na vertical e na
horizontel
Fundamento:
Obrigatório:
Formato:
Exemplo:
4096x6144 pixels
Fonte:
Sobreposição:
Notas:
Página 14 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
IMAGEM
FICHEIROS
Sub-elementos:
Resolução tonal
AIP:
PDI
Definição:
O bit depth de cada pixel
Fundamento:
Obrigatório:
Formato:
Exemplo:
1;8;24
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
IMAGEM
FICHEIROS
Sub-elementos:
Espaço de cor
AIP:
PDI
Definição:
O espaço de cor usado na imagem
Fundamento:
Obrigatório:
Formato:
Exemplo:
Escala de cinzentos ; RGB
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
IMAGEM
FICHEIROS
Sub-elementos:
Gestão de cor
AIP:
PDI
Definição:
Qualquer sistema usado para acrescentar consistência de cor ao
longo da captura, display e output da imagem
Fundamento:
Obrigatório:
Formato:
Exemplo:
PhotoCD; OptiCal; Profile/80; Softproof (Pfotoshop pug-in)
Fonte:
Sobreposição:
Notas:
Página 15 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
IMAGEM
FICHEIROS
Sub-elementos:
Lookup table
AIP:
PDI
Definição:
Localização e codificação para todos os CLUT usados para
mapear desde o depth bais maixo ao mais alto
Fundamento:
Obrigatório:
Formato:
Exemplo:
Residente (se o CLUT se encontra no ficheiro de imagem),
Base64 (Se o CLUT estiver codificado em binário)
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
IMAGEM
FICHEIROS
Sub-elementos:
Orientação
AIP:
PDI
Definição:
Como a imagem digitalizada é armazenada relativamente ao topo
da imagem
Fundamento:
Obrigatório:
Formato:
Exemplo:
000 (se a orientação é alinhada com o topo da imagem): 090 (se
o topo da imagem está 90 graus desviado, seguindo os ponteiros
do relógio)
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
IMAGEM
FICHEIROS
Sub-elementos:
Compressão
AIP:
PDI
Definição:
O tipo e o nível de compressão
Fundamento:
Obrigatório:
Formato:
Exemplo:
ITU Grupo 4
Fonte:
Sobreposição:
Notas:
Página 16 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
AUDIO
FICHEIROS
Sub-elementos:
Resolução
AIP:
PDI
Definição:
A frequência da amostra em kHz
Fundamento:
Obrigatório:
Formato:
Exemplo:
44.1kHz
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
AUDIO
FICHEIROS
Sub-elementos:
Duração
AIP:
PDI
Definição:
O tempo de gravação audio em minutos e segundos ou minutos,
segundos, 100ºs de segundo e frames
Fundamento:
Obrigatório:
Formato:
Exemplo:
67 minutos 12 segundos; 03:12:24:20
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
AUDIO
FICHEIROS
Sub-elementos:
Bit rate
AIP:
PDI
Definição:
Word length used to encode the audio. Consequentemente uma
indicação de uma série dinâmica
Fundamento:
Obrigatório:
Formato:
Exemplo:
16 bit, 24 bit
Fonte:
Sobreposição:
Notas:
Página 17 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
AUDIO
FICHEIROS
Sub-elementos:
Compressão
AIP:
PDI
Definição:
O tipo e o nível de compressão
Fundamento:
Obrigatório:
Formato:
Exemplo:
MPEG 3
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
AUDIO
FICHEIROS
Sub-elementos:
Encapsulação
AIP:
PDI
Definição:
O formato de saída e a versão
Fundamento:
Obrigatório:
Formato:
Exemplo:
Real Audio II
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
AUDIO
FICHEIROS
Sub-elementos:
Nº e tipo de pista
AIP:
PDI
Definição:
Nº de pistas e realações umas com as outras
Fundamento:
Obrigatório:
Formato:
Exemplo:
1.2 pista stereo;2.single track;3.5 canal surround
Fonte:
Sobreposição:
Notas:
Página 18 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
VÍDEO
FICHEIROS
Sub-elementos:
Dimensões das frames
AIP:
PDI
Definição:
Resolução em pixels de uma única frame
Fundamento:
Obrigatório:
Formato:
Exemplo:
640 pixels x 480 pixels
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
VÍDEO
FICHEIROS
Sub-elementos:
Duração
AIP:
PDI
Definição:
O tempo de gravação vídeo em minutos e segundos ou minutos,
segundos, 100ºs de segundo e frames
Fundamento:
Obrigatório:
Formato:
Exemplo:
67 minutos 12 segundos; 03:12:24:20
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
VÍDEO
FICHEIROS
Sub-elementos:
Frame rate
AIP:
PDI
Definição:
O frame rate normalizado para vídeo por segundo
Fundamento:
Obrigatório:
Formato:
Exemplo:
25 fps
Fonte:
Sobreposição:
Notas:
Página 19 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
VÍDEO
FICHEIROS
Sub-elementos:
Compressão
AIP:
PDI
Definição:
O tipo e o nível de compressão
Fundamento:
Obrigatório:
Formato:
Exemplo:
MPEG 3
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
VÍDEO
FICHEIROS
Sub-elementos:
Estrutura de codificação
AIP:
PDI
Definição:
O tipo de estrutura de codificação e a versão
Fundamento:
Obrigatório:
Formato:
Exemplo:
MPEG 3
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
VÍDEO
FICHEIROS
Sub-elementos:
Som
AIP:
PDI
Definição:
Parâmetros de som incorporados numa estrutura simples de
ficheiro de vídeo. Pode incluirtodos os campos especificados em
audio
Fundamento:
Obrigatório:
Formato:
Exemplo:
Fonte:
Sobreposição:
Notas:
Página 20 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
TEXTO
FICHEIROS
Sub-elementos:
Compressão
AIP:
PDI
Definição:
O tipo e o nível de compressão
Fundamento:
Obrigatório:
Formato:
Exemplo:
ficheiro .zip
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
TEXTO
FICHEIROS
Sub-elementos:
Jogo de caracteres
AIP:
PDI
Definição:
Jogo de caracteres usado no documento
Fundamento:
Obrigatório:
Formato:
Exemplo:
ASCII; Unicode
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
TEXTO
FICHEIROS
Sub-elementos:
DTD associada
AIP:
PDI
Definição:
Nome da DTD aplicada à estrutura do texto
Fundamento:
Obrigatório:
Formato:
Exemplo:
EAD
Fonte:
Sobreposição:
Notas:
Página 21 de 22
Simulação de Matriz de Metadados de Preservação
Grupo Metadados
Elementos Metadados:
TEXTO
FICHEIROS
Sub-elementos:
Divisões estruturais
AIP:
PDI
Definição:
Divisões lógicas num ficheiro de texto estruturado
Fundamento:
Obrigatório:
Formato:
Exemplo:
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
OBJECTO
Sub-elementos:
Relações dos objectos
AIP:
PDI
Definição:
Documenta relações dos objectos ao ambiente
Fundamento:
Identifica as relações existentes entre o objecto e ambiente
Obrigatório:
Não
Formato:
Texto
Exemplo:
Fonte:
Sobreposição:
Notas:
Grupo Metadados
Elementos Metadados:
OBJECTO
Sub-elementos:
Gestão de direitos
AIP:
PDI
Definição:
Restrições de acesso aos utilizadores
Fundamento:
Permite dar ou não acesso aos utilizadores
Obrigatório:
Sim
Formato:
Texto
Exemplo:
Fonte:
Entrada manual ou dada pelo sistema
Sobreposição:
Nenhuma
Notas:
Nenhuma
Página 22 de 22
ANEXO 2
GLOSSÁRIO
GLOSSÁRIO
ARQUITECTURA PEER-TO-PEER
Tipo de rede em que cada estação de trabalho tem capacidades e responsabilidades equivalentes. Difere de uma arquitectura de cliente-servidor na qual existem computadores
que estão dedicados ao serviço de outros computadores.
http://www.webopedia.com/TERM/p/peer_to_peer_architecture.html (acedido em 200303-21)
API (APPLICATION PROGRAM INTERFACE)
Conjunto de rotinas, protocolos e ferramentas para construção de aplicações de software.
http://www.webopedia.com/TERM/A/API.html (acedido em 2003-06-16)
CDWA (CATEGORIES FOR THE DESCRIPTION OF WORKS OF ART)
Esquema de metadados criado no âmbito da Art Information Task Force (AITF). Define um
conjunto de campos para a descrição de objectos de arte. Com efeito, tem paralelismo com
o Dublin Core, mas é muito mais especializado no âmbito e na função.
Distingue entre informação intrínseca do item (objecto de arte, arquitectura ou conjunto de
itens) e informação extrínseca, tal como informação sobre pessoas lugares e conceitos relacionados com o trabalho. Tal como o DC não está ligado a nenhuma DTD mas pode ser
incorporado em sistemas XML.
Existe outro sistema similar ao CDWA que é o Visual Resources Association Core Categories, que tenta definir campos fulcrais para a descrição de recursos visuais e também acrescenta informação sobre cópias tais como imagens digitais. Ainda está em testes.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
CHECKSUM
Esquema de detecção de erros que consiste em acompanhar cada mensagem por um valor
numérico baseado no conjunto de bits que compõem a mensagem. O receptor aplica a
mesma fórmula e verifica se o valor numérico é o mesmo. Se isso não acontecer, a mensagem pode considerar-se corrompida.
http://www.webopedia.com/TERM/c/checksum.html (acedido em 2003-06-16)
DIGEST
Representação de um texto na forma de um conjunto de dígitos, criados usando uma fórmula intitulada one-way hash function.
http://www.webopedia.com/TERM/m/message_digest.html (acedido em 2003-05-25)
DUBLIN CORE (DC)
Esquema de metadados composto por uma lista de 15 campos desenhados inicialmente
para descrever recursos com base na Web, de tal forma que permitisse aos motores de
busca encontrá-los. Não é uma aplicação XML mas desenha elementos que podem ser incorporados nesse tipo de aplicações (como p. ex. METS). Devido ao seu âmbito genérico os
seus elementos podem ser qualificados de forma a limitar o seu campo de acção, o que
limita as suas funcionalidades de pesquisa cruzada mas aumenta a precisão. ODC tem um
grande potencial como conjunto de metadados para recursos digitais, mas na maior parte
das vezes tem que ser acrescentado por informação mais específica adequada às necessidades dos objectos. Como não contém nele próprio uma DTD ou um Esquema XML necessita ser usado em conjunto ou embutido numa aplicação XML.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
EAD (ENCODED ARCHIVAL DESCRIPTION)
DTD XML aplicada na comunidade arquivistica. Devido à sua grande facilidade de ligar objectos digitais é capaz de descrever colecções digitais da mesma maneira que análogos
tradicionais. É também desenhado por forma a mapear padrões chave tais como MARC,
que permite que os registos EAD sejam pesquisados no seguimento de outros formatos
estabelecidos. O formato EAD tem capacidade para descrever uma colecção digital e a sua
estrutura interna, desde o mais alto nível da colecção até aos itens individuais. As suas
descrições individuais são todavia limitadas.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
ESQUEMA DE METADADOS (METADATA SCHEME)
Fornece a estrutura formal desenhada para identificar a estrutura de conhecimento de uma
dada disciplina e para proceder à sua interligação com a informação da disciplina. Desta
forma é criado um sistema de informação que orienta a identificação, descoberta e uso da
informação no contexto da disciplina.
http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html (acedido em 2002-06-02)
GRID
Tipo de arquitectura de rede. Ao contrário das redes convencionais que têm o seu ponto
fulcral nas comunicações entre dispositivos, a arquitectura GRID aproveita os ciclos de não
processamento de todos os computadores na rede para resolver problemas de excessiva
intensidade de tráfego para máquinas stand-alone.
http://www.webopedia.com/TERM/g/grid_computing.html (acedido em 2003-02-22)
IMS
Esquema de metadados que se destina à gestão de recursos de ensino on line. É uma DTD
para XML e inclui componentes que fornecem metadados descritivos e administrativos e foi
desenhado para mapear DC. Enquanto indiscutivelmente potente já foi criticado como muito complexo e não é muito usado nas bibliotecas digitais.
http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02
INTEROPERABILIDADE
Capacidade de dois ou mais sistemas ou componentes trocarem informação e a manipularem sem apoio de outros sistemas.
http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html (acedido em 2002-06-02)
MARC (MACHINE READABLE CATALOGUING)
Padrão estabelecido para a criação de registos para catálogos em linha. Tem características
para descrição de informação bibliográfica mas tem fraca capacidade para a descrição de
metadados administrativos ou estruturais. É também limitado quanto à descrição de incunábulos ou manuscritos que podem estar incluídos numa colecção digital. Mapeamentos ao
formato MARC existem em quase todos os sistemas de metadados.
http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02
LOOK-AND-FEEL
Forma, aspecto e características externas de usabilidade.
METADADOS
Informação estruturada, que pode estar inserida num cabeçalho e que descreve os recursos a que se reporta. Exemplos de metadados são os elementos do catálogo de uma biblioteca. Enquanto os recursos interessam ao utilizador final os metadados interessam às pessoas ou aos programas que têm que manusear a informação. Os metadados estão presentes no processo de recuperação da informação ao proporcionar aos utilizadores a descoberta da existência dessa informação, que a localizem e que sirva para a identificar. Frequentemente os metadados descrevem o conteúdo, a descrição física, a localização, o tipo, a
forma da informação, e também que informação é necessária para a sua gestão: migrações, datas de expiração, segurança, autenticação e formato dos ficheiros.
CLAVEL-MERRIN, Genevieve. NEDLIB list of terms. NEDLIB Report Series Editor. 2000,
17p., ISBN 906259151-5 (NEDLIB Report Series ; 7)
http://info.wgbh.org/upf/glossary.html (acedido em 2002-06-02)
Metadados são dados estruturados, codificados que descrevem características da informação e que ajudam na sua identificação, acesso e gestão.
http://www.ala.org/alcts/organization/ccs/ccda/tf-meta3.html acedido em 2002-06-02
Tipos de metadados :
1) Metadados descritivos: informação que descreve o conteúdo intelectual de um
recurso, tal como o formato MARC ou um esquema similar
2) Metadados administrativos: informação que permite a manipulação dos recursos
por um repositório: pode incluir informação acerca da forma da sua digitalização, do formato de armazenamento, etc. informação de copyright e licenciamentos e informação necessária para a preservação de longo prazo (metadados de preservação)
3) Metadados estruturais: informação que liga objectos a outros objectos para
formar unidades lógicas (p. ex. informação que relaciona imagens ou páginas
de um livro a outras e dessa forma se constrói o livro)
Em geral só os metadados descritivos são visíveis para o utilizador final.
http://www.odl.ox.ac.uk/metadata.htm acedido em 2002-06-02
Num contexto de preservação digital, os metadados identificam o recurso, determinam a
sua responsabilidade, pormenorizam o conteúdo, estabelecem as relações contextuais com
outros recursos, fornecem os pormenores técnicos e o conhecimento da cadeia de bites de
forma a que seja possível recuperar o recurso e fornecem informação legal.
METS (METADATA ENCODING & TRANSMISSION STANDARD)
Standard desenhado especificamente para codificar metadados descritivos, administrativos
e estruturais de recursos de uma biblioteca digital. Surge no seguimento do MOA (Making
of America II). É escrito em Esquema XML e por isso necessita de recorrer a software que
lide com este novo formato. O formato METS depende de um sistema complicado de referências cruzadas entre documentos e é gerado automaticamente em vez de ser editado
manualmente.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
MIME (MULTIPURPOSE INTERNET MAIL EXTENSIONS)
Formatação específica para mensagens em formato não ASCII de forma a que estas possam ser enviadas através da Internet. Permite enviar e receber ficheiros de gráficos, áudio,
ou vídeo através de sistemas de email. Adicionalmente comporta outros conjuntos de caracteres além de ASCII. Existem alguns tipos MIME predefinidos, p. ex.: GIF ou PostScript
http://www.webopedia.com/TERM/M/MIME.html (acedido em 2003-03-02)
OBJECTO DIGITAL (TERMINOLOGIA OAIS)
Qualquer recurso que pode ser armazenado ou recuperado, i.e., tornado significativo, por
um computador.
Definição retirada de :
Russel, Kelly & Sergeant, Derek (1999) – The Cedars Project: Implementing a model for
distributed digital archives. RLG Diginews, 3 (3)
http://www.rlg.ac.uk/preserv/diginews/diginews3-3.html (acedido em 2003-01-20)
ONE-WAY HASH FUNCTION
Algoritmo que permite transformar mensagens ou textos numa sequência de dígitos com o
propósito de garantir a gestão da segurança. One way significa que é praticamente impossível afastar o texto original da sequência.
http://www.webopedia.com/TERM/O/one-way_hash_function.htm (acedido em 2003-0525)
ONIX
Aplicação XML desenhada para proporcionar aos editores e livreiros a troca de metadados
essenciais. Como consequência traz muitas facilidades de descrição bibliográfica, preços e
informação de stoks, mas é muito limitado em termos de metadados administrativos ou
estruturais. Tem também capacidade limitada para descrever outros recursos que não livros impressos.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
OPEN ARCHIVAL INFORMATION SYSTEM (OAIS)
Modelo conceptual para um repositório digital desenvolvido sob os auspícios do CCSDS
(NASA Consultative Committee for Space Data Systems).
Este modelo determina terminologia e esclarece conceitos importantes para o repositório
digital, identifica os componentes chave e os processos comuns à maioria da actividade de
depósito digital e propõe um modelo informacional para objectos digitais e metadados associados. Este modelo pode ser aplicado a um leque alargado de objectos nascidos digitais
ou mesmo objectos com existência física e não comporta assunções acerca de estratégias
de preservação.
O modelo OAIS é entendido no âmbito duma organização de pessoas e sistemas cuja responsabilidade é preservar a informação e disponibilizá-la a uma determinada comunidade.
http://info.wgbh.org/upf/glossary.html (acedido em 2003-03-21)
OPAC (ONLINE PUBLIC ACCESS CATALOG)
Catálogo bibliográfico das colecções acessíveis em linha.
PLUG-AND-PLAY
Capacidade de um sistema informático automaticamente configurar mecanismos de expansão a novos serviços e dispositivos. Deve ser possível acrescentar funcionalidades sem recorrer a mais elementos de configuração ou à utilização de dip-switches ou jumpers.
http://www.webopedia.com/TERM/p/plug_and_play.html (acedido em 2003-02-22)
PRESERVAÇÃO DIGITAL
Conjunto de operações de gestão a empreender capazes de assegurar a manutenção a
longo prazo de uma cadeia de bytes e o acesso continuado ao seu conteúdo.
http://oclc.org/research/pmwg/ (acedido em 2003-03-21)
PURL (PERSISTENT UNIFIED RESOURCE LOCATION)
Funcionalmente um PURL é um URL que não aponta directamente para a localização do
recurso mas sim para um serviço de resolução intermédio. Este associa o PURL com o URL
e retorna o URL para o cliente. Em gíria da Web é um padrão http para redireccionamento.
http://www.purl.oclc.org
(acedido
em
2003-03-21)
RDF (RESOURCE DESCRIPTION FRAMEWORK)
Aplicação de XML que não é um esquema de metadados de per si, mas um sistema para os
codificar através de um enquadramento padronizado. Desenhada inicialmente para descrever recursos da Internet, fornece um caminho normalizado de descrição dos nomes dos
elementos e a troca de informação sobre eles. RDF expressa-se usualmente em XML e
pode ser usado como enquadramento para muitos esquemas de metadados.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
REGISTO
Contexto de arquivo
Item informacional gerado, coligido ou recebido desde o início no âmbito de uma actividade individual ou institucional, que contenha suficiente conteúdo, contexto e estrutura que
forneça prova da existência dessa actividade
Contexto de base de dados
Colecção de itens relacionados tratados como um todo numa base de dados
REPOSITÓRIO DIGITAL CONFIÁVEL
Um repositório digital confiável é aquele cuja missão é assegurar a manutenção e o acesso
continuado a uma designada comunidade a recursos digitais confiáveis, agora e no futuro.
Os repositórios confiáveis podem assumir diferentes formas : algumas instituições podem
optar por construir os seus próprios repositórios enquanto outras podem optar por contratar serviços externos.
http://oclc.org/research/pmwg/ (Acedido em 2003-01-09)
TEI (TEXT ENCODING INITIATIVE)
Norma para codificar textos electrónicos. Sistema modular, integra um conjunto de etiquetas às quais podem ser acrescentadas outras para adequação a aplicações particulares tais
como transcrições de manuscritos. Inclui facilidades para metadados descritivos, a maior
parte dos quais está localizada no cabeçalho TEI, comporta também a parte do documento
que contenha informação acerca do documento electrónico propriamente dito e da fonte de
onde foi extraído. O cabeçalho foi desenhado para mapear o formato MARC. O formato TEI
é muito usado em projectos com uma grande componente textual.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
XML (EXTENSIBLE MARKUP LANGUAGE)
Linguagem desenhada inicialmente para marcar texto electrónico, mas devido às
suas
propriedades de robustez, à sua independência face a softwares e à fácil intercomunicabilidade entre sistemas, a sua estrutura mapeia facilmente objectos digitais.
Um sistema XML pode ser aplicado de duas maneiras:
1. DTD (Document type definition) método antigo que lista quais as etiquetas (tags) que devem ser utilizadas num documento XML assim como o
seu conteúdo e relações entre elas
2. Um método mais recente de codificar XML é um esquema XML, que define as regras que um documento XML deve seguir num outro documento
XML. O esquema XML é mais potente que o DTD.
http://www.odl.ox.ac.uk/metadata.htm (acedido em 2002-06-02)
Z39.50
Protocolo (ANSI/NISO Z39.50-1950/ISO23950) que define a interoperabilidade entre cliente e servidor (origem e alvo) e permite ao cliente pesquisar a base de dados, identificar os
recursos segundo determinados critérios e recuperá-los.
http://www.loc.gov/z3950/agency/ (acedido em 2003.05.25)
ANEXO 3
DESDOBRAMENTO DE SIGLAS E ACRÓNIMOS
DESDOBRAMENTO DE SIGLAS E ACRÓNIMOS
AHDS : Arts and Humanities Data Service
AIP : Archive information package
API : Application Program Interface
ASCII : American Standards Code for Information Interchange
CAMiLEON : Creative Archiving at Michigan & Leeds : Emulating the Old on the New
CCSDS : Consultative Committee for Space Data Systems
CEDARS : CURL Exemplars in digital archives project
CLIR : Council on Library and Information Resources
COBRA : Computorized Bibliographic Record Actions
CURL : Consortium of University Research Libraries
DC : Dublin Core
DCMI : Dublin Core Metadata Inciciative
DIP : Dissemination information package
DOI : Digital object identifier
DSEP : Deposit System Electronic Publications
DSP : Digital Services Project (NLA)
DSTC : Distributed Systems Technology Centre (NLA)
DTD : Document Type Definition
EAD : Encoding Archival Description
EPCA : European Comission on Preservation and Access
EVA : Elinkeinoelämän Valtuuskunta (the acquisition and archiving of electronic network
publications)
FEDORA : Flexible Extensible Digital Object and Repository Architecture
HTML : Hypertext Modelling Text
IFLA : International Federation of Library Associations
InterPARES : International Research on Permanent Authentic Records in Electronic Systems)
ISAD(G) : International Standard for Archive Description
JISC : Joint Information Systems Committee of the Higher and Further Education Councils
Kulturarw3 : The Royal Swedish Web Archiv3
LDI : Library Digital Initiative
METS : Metadata Encoding and Transmission Standard
MIME : Multipurpose Internet Mail Extensions
NASA : National Aeronautics and Space Administration
NBN : National Bibliographic Name
NEDLIB : Networked European Deposit Library
NLA : National Library of Australia
OAI : Open Archives Initiative
OAI-PMH : Open Archives Initiative – Protocol for Metadata Harvesting
OAIS : Open Archival Information System Reference Model
OCLC : Online Computer Library Center
PAC : Preservation and Conservation
PADI : Preserving Access to Digital Information
PANDORA : Preserving and Accessing Networked DOcumentary Resources of Australia
PDF : Portable document format
PURL : Persistent Uniform Resource Locator
RDF : Resource Description Framework
RLG : Research Libraries Group
SGML : Standard Generalized Markup Language
SIP : Submission Information Package
SOAP : Simple Object Access Protocol
STMS : Secure Transaction Management Systems
UML : Unified Modeling Lanuage
UNESCO : United Nations Educational, Scientific and Cultural Organization
URI : Uniform Resource Identifier
URL : Uniform Resource Locator
URN : Uniform Resource Name
UVC : Universal Virtual Computer
VEO : VERS Encapsulated Object
VERS : Victorian Electronic Record Strategy
W3C : World Wide Web Consortium
WIPO : World Intellectual Property Organization
WSDL : Web Services Description Language
XML : Extensible Markup Language
ANEXO 4
SÍTIOS RECOMENDADOS NA ÁREA
DA PRESERVAÇÃO DIGITAL
SÍTIOS RECOMENDADOS
CAMiLEON : Creative Archiving at Michigan & Leeds : Emulating the Old on the New
http://www.si.umich.edu/CAMILEON/about/aboutcam.html
Projecto conjunto das universidades de Michigan (USA) e Leeds (UK). Desenvolve e avalia
estratégias de preservação digital de longo prazo, com especial interesse na estratégia de
emulação.
CEDARS : Curl Exemplars in Digital Archives Project
http://www.leeds.ac.uk/cedars/
Projecto conjunto das universidades de Leeds, Cambridge e Oxford no Reino Unido. Dedica-se a estudar metodologias e boas práticas no campo da preservação digital. Financiado
pelo JISC, teve início em 1998 e terminou em 2002.
CLIR : Council on Library and Information Resources
http://www.clir.org/
Organização não lucrativa patrocinada por mais de 160 instituições americanas, a maioria
universidades. Através de projectos, programas e publicações tenta aperfeiçoar e garantir
o acesso à informação a gerações futuras.
CURL : Consorcium of University Research Libraries
http://www.curl.ac.uk/about/
Consórcio que promove a investigação em ciências documentais e da informação, assim
como o ensino e a aprendizagem em bibliotecas universitárias no Reino Unido. Composto
pelas seguintes universidades :
Aberdeen, Birmingham, Bristol, British Library, Cambridge, Dublin (Trinity), Durham, Edinburgh, Glasgow, Leeds, Liverpool, London (Senate House), LSE, Imperial, KCL, UCL,
JRULM, National Library of Scotland, National Library of Wales, Newcastle, Nottingham, Oxford, Southampton, Sheffield e Warwick.
DC : Dublin Core
http://dublincore.org/
Conjunto de 15 elementos de metadados para descrição de recursos digitais na Internet.
A iniciativa Dublin Core é também um polo de discussão, aberto, com interesse no desenvolvimento da interoperabilidade de esquemas de metadados.
DELOS : Network of Excellence on Digital Libraries
http://delos-noe.iei.pi.cnr.it/
Iniciativa da Comissão Europeia aberta à participação e contribuição de investigadores, visando a promoção de investigação em bibliotecas digitais na Europa.
DLF : Digital Library Federation
http://www.diglib.org/
Consórcio de bibliotecas e outras organizações pioneiras no uso das tecnologias de informação digital. Através dos seus membros orienta as bibliotecas na identificação de padrões
e boas práticas para a gestão das colecções digitais e para o acesso em rede.
DPC : Digital Preservation Coalition
http://www.dpconline.org/graphics/
Consórcio criado em 2001 para fazer face aos desafios urgentes da preservação de recursos digitais no Reino Unido e internacionalmente de forma a poder garantir a existência
futura de uma memória digital global.
DSP : Digital Services Project
http://www.nla.gov.au/dsp/
Projecto da Biblioteca Nacional da Austrália que visa assegurar a gestão das colecções digitais assim como a sua preservação e acesso ao longo do tempo.
ECPA: European Commission on Preservation and Access
http://www.knaw.nl/ecpa/
Plataforma europeia para discussão e cooperação de instituições patrimoniais nas áreas da
preservação e acesso. Promove o intercâmbio de conhecimentos e experiências. Organiza
encontros de trabalho e conferências.
EVA : the acquisition and archiving of electronic network publications
http://www.lib.helsinki.fi/eva/english.html
Projecto conjunto de bibliotecas, editores e organizações especializadas no âmbito de programa estratégico do Ministério da Educação da Finlândia. Visa criar metodologias e ferra-
mentas para capturar, registar e arquivar recursos digitais distribuídos através da Internet
e investigar as condições para a sua preservação nas bibliotecas.
FEDORA : Flexible Extensible Digital Object and Repository Architecture
O projecto FEDORA tem sede na biblioteca da Universidade da Virgínia nos Estados Unidos
da América e é desenvolvido no âmbito de uma parceria com a Universidade de Cornell. É
subsidiado pela a Fundação Andrew W. Mellon.
IFLA : International Federation of Library Associations
http://www.ifla.org
Organização que lidera internacionalmente os interesses das bibliotecas e serviços de informação. É ao mesmo tempo fonte de informação de referência em todas as áreas relacionadas com as ciências da documentação e informação.
JISC : Joint Information Systems Committee of the Higher and Further Education Councils
http://www.jisc.ac.uk/
Promove o uso de sistemas e tecnologias da informação no ensino superior e de pósgraduação no Reino Unido.
KULTURARW3 : The Swedish Archive
http://www.ifla.org/IV/ifla66/papers/154-157e.htm
Projecto que investiga métodos de recolha, preservação e acesso aos recursos digitais suecos, através da Internet.
NEDLIB : Networked European Deposit Library
http://www.kb.nl/coop/nedlib/
Projecto conjunto das bibliotecas nacionais europeias. Visa construir uma infraestrutura
básica na qual uma rede europeia de bibliotecas de depósito possa operar. O seu objectivo
é assegurar que os recursos digitais do presente sejam acessíveis no futuro.
NLC : Electronic Collections Coordinating Group - Networked Electronic Publications Policy
and Guidelines
http://www.nlc-bnc.ca/9/8/index-e.html
Grupo de trabalho da Biblioteca Nacional do Canadá. Coordena, entre outros, o problema
da preservação digital de longo prazo
OCLC : Online Computer Library Center, Inc.
http://www.oclc.org/digitalpreservation/about/archive/
Consórcio que apoia cerca de 41000 bibliotecas em 82 países. Além de muitos outros serviços fornece acesso a recursos digitais a longo prazo, assim como procede à sua preservação.
PADI : Preserving Access to Digital Information
http://www.nla.gov.au/padi/
Portal temático australiano totalmente vocacionado para a preservação digital
PANDORA : Preserving and Accessing Networked Documentary Resources of Australia
http://pandora.nla.gov.au/
Projecto de depósito de recursos digitais no âmbito da Biblioteca Nacional da Austrália que
visa dedicar-se à preservação digital de longo prazo.
Consórcio formado pelas State Library of Victoria, ScreenSound Australia, State Library of
South Australia, State Library of New South Wales, State Library of Western Australia,
Northern Territory Library and Information Service, State Library of Queensland e National
Library of Australia.
RLG : Research Libraries Group
http://www.rlg.org/rlg.html
Consórcio de mais de 160 instituições, em todo o mundo, pioneira no desenvolvimento de
soluções cooperativas para os problemas da gestão de colecções, tais como aquisição, fornecimento e preservação de informação.
TEL : The European Library
http://inf2.pira.co.uk/factsheets/inform/digicult/tel.html#consortium
Consórcio europeu que acompanha o desenvolvimento de bibliotecas digitais com vista à
criação de uma futura biblioteca digital europeia baseada em colecções digitais distribuídas. Tem nas suas funções, além de outras, o desenvolvimento de um conjunto consensual
de abordagens para as bibliotecas nacionais nas suas relações com os editores ao nível do
depósito legal.
VERS : Victorian Electronic Record Strategy
http://www.prov.vic.gov.au/vers/
Projecto australiano. Congrega um conjunto de padrões, linhas orientadoras e projectos de
implementação cujo objectivo é a autenticidade dos recursos digitais em arquivo criados e
geridos pelo governo australiano.
Download

PRESERVAÇÃO DIGITAL DE LONGO PRAZO