ISO “Reference Model For an Open Archival Information System (OAIS)” Visão Geral Katia P. Thomaz (UFMG/ECI) Setembro 2003 I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 1 Tópicos Abordados Histórico Visão geral do Modelo de Referência Algumas Aplicações Acompanhamento das Atividades I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 2 Qual a motivação? VOLUME DE DOCUMENTOS 180 160 160 Quantidade 140 120 120 120 100 80 Papel 80 80 Digital 60 40 20 20 0 1994 2000 2010 Ano Pesquisa realizada pelo DataQuest, EUA em 2000 I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 3 Qual a motivação? • Observações climáticas da Terra • Dados de missões espaciais • Resultados de pesquisas bio-genéticas • Documentos do governo eletrônico ... I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 4 Qual a motivação? Essas informações são, fundamentalmente, de caráter arquivístico e, portanto, de natureza: — orgânica — natural — singular — comprobatória I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 5 Qual a motivação? Preservar informação em formato digital é mais difícil que preservar informação em formatos tradicionais — a informação digital está cada vez mais distribuída — dados e metadados devem ser migrados para novas mídias, sistemas operacionais e sistemas aplicativos — representações e formatos devem obrigatoriamente acompanhar novas tecnologias e padrões — a informação digital precisa ser prontamente transportada de arquivo a arquivo I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 6 Antecedentes National Space Science Data Center — Primeiro arquivo digital da NASA — Passou por diversas mudanças tecnológicas desde 1966 Consultative Committee for Space Data Systems — Grupo internacional de agências espaciais — Desenvolveu diversos padrões independentes de área científica — Tornou-se, por volta de 1990, um corpo de trabalho do ISO TC 20/ SC 13 • TC20: Aircraft and Space Vehicles • SC13: Space Data and Information Transfer Systems ISO sugeriu que o SC 13 desenvolvesse padrões para arquivos I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 7 Organização do Trabalho NASA estabeleceu parceria com Federal Geographic Data Committee (FGDC) e National Archives and Records Administration (NARA) em outubro de 1995 Incorporação de representantes de instituições arquivísticas e usuários Processo “Aberto”, importante para estimular o diálogo entre partes Oficinas internacionais conduzidas, também, na Inglaterra e na França Publicação dos resultados das oficinas norteamericanas e internacionais na Web Comentários e críticas via e-mail I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 8 Abordagem Técnica Iniciar com o desenvolvimento de um modelo de referência para estabelecer termos e conceitos comuns Investigar outros modelos de referência — ISO “Seven Layer” Communications Reference Model — ISO Reference Model for Open Distributed Processing — ISO TC211 Reference Model for Geomantics Escolher técnicas formais para especificação — Diagramas de Fluxo de Dados para modelos funcionais e interfaces — Unified Modeling Language (UML) para classes de dados Prosseguir com novos desenvolvimentos de padrões para arquivos I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 9 Andamento do Trabalho Revisão CCSDS Red Book concluída em Novembro de 2000 Problemas discutidos e resolvidos nas oficinas ISO Archiving Workshop de Novembro de 2000 e Maio de 2001 Nova versão entregue a ISO e CCSDS em Julho 2001 Revisão CCSDS concluída em Outubro 2001 com alguns comentários de edição Aprovado para publicação final como padrão CCSDS em Janeiro de 2002 Aprovado para publicação como padrão ISO 14721 em Fevereiro de 2003 I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 10 Modelo Resultante Aplicável a diferentes tipos de organizações — Arquivos — Bibliotecas — Centros de pesquisa Útil a diversas categorias de profissionais — Projetistas de sistemas de arquivos — Usuários de sistemas de arquivos — Responsáveis por sistemas de arquivos — Desenvolvedores de padrões Versão CCSDS disponível em: http://www.ccsds.org/documents/650x0b1.pdf Lista de discussão de implementadores [email protected] I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 11 Modelo de Referência para um Sistema Aberto de Armazenamento de Informação (SAAI) Visão Técnica I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 12 O que é um Modelo de Referência? Um esquema para entender relacionamentos significativos de entidades num ambiente e para desenvolver padrões ou especificações consistentes com esse ambiente Baseia-se numa pequena quantidade de conceitos integrados Pode ser usado como base para treinamento e explicação de padrões a não especialistas I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 13 Sistema Aberto de Armazenamento de Informação e Preservação por Longo Prazo Aberto – Recomendações e padrões desenvolvidos em fóruns abertos Informação – Qualquer tipo de conhecimento que possa ser intercambiado por meio de dados (físico ou digital) Sistema de Armazenamento de Informação – Hardware, software e pessoas encarregados de receber, preservar e disseminar informação Longo Prazo – Período de tempo suficiente para se preocupar com mudanças tecnológicas Preservação por Longo Prazo – Ato de manter informação por Longo Prazo, de forma correta e ‘independentemente compreensível’ I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 14 Objetivos Fornecer um esquema para entender os conceitos arquivísticos necessários para a preservação e acesso a informação digital por Longo Prazo Servir de base para outros esforços de preservação e acesso a informação NÃO digital por Longo Prazo Fornecer um esquema para descrever e comparar arquiteturas e operações de arquivos existentes e futuros Ampliar o consenso sobre os elementos e processos de preservação e acesso a informação por Longo Prazo, e fomentar um mercado mais amplo para fornecedores Direcionar padrões relacionados ao SAAI I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 15 Escopo Define um conjunto de responsabilidades mínimas de um SAAI passíveis de distingui-lo de outros usos do termo ‘arquivo Descreve as funções para preservação de informação em arquivos e suas interfaces internas e externas Detalha os tipos de informações que fluem e são gerenciadas pelo SAAI Também discute — Perspectivas de preservação de informação — Perspectivas de preservação de acesso — Possibilidades de interação entre arquivos SAAI NÃO define uma implementação I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 16 Aplicação Aplica-se a qualquer arquivo Aplica-se especificamente a organizações com responsabilidade de tornar informação disponível por Longo Prazo Interessa, também, àquelas organizações e indivíduos que criam informação que pode vir a necessitar de Preservação por Longo Prazo e àquelas que necessitam adquirir informação desses arquivos I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 17 Visão do Ambiente de um SAAI Produtor é a função desempenhada pelas pessoas ou sistemas cliente que fornecem informação a ser preservada Administração é a função desempenhada por aqueles que estabelecem as políticas gerais do SAAI, dentro de um domínio mais abrangente de políticas Consumidor é a função desempenhada pelas pessoas ou sistemas cliente que interagem com os serviços do SAAI para pesquisar e adquirir informação preservada desejada Comunidade Alvo é um tipo especial de Consumidor que deve ser capaz de entender a informação preservada pelo SAAI Produtor SAAI (arquivo) Consumidor Administração I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 18 Responsabilidades de um SAAI Negociar e aceitar informação de Produtores de informação Estabelecer controle suficiente para assegurar a Preservação por Longo Prazo Identificar as Comunidades Alvo da informação preservada Garantir que a informação preservada seja ‘independentemente compreensível’ para as Comunidades Alvo Seguir políticas e procedimentos documentados que garantam que a informação seja preservada contra todas as contingências cabíveis Tornar a informação preservada disponível para as Comunidades Alvo I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 19 Conceito de Informação Uma informação é sempre representada por algum tipo de dado Pode-se dizer, de forma genérica, que ‘Dados interpretados por sua Informação de Representação produz Informação’ Para preservar adequamente um Objeto de Informação, o arquivo deve identificar e entender claramente o Objeto de Dados e sua Informação de Representação associada Interpretada por sua Objeto de Dados Produz Informação de Representação I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 Objeto de Informação 20 Conceito de Pacote de Informação Informação de Conteúdo Informação de Descrição de Preservação Pacote de Informação Um Pacote de Informação é um continente conceitual de dois tipos de informação – – Informação de Conteúdo (alvo original da preservação) Informação de Descrição de Preservação - IDP I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 21 Variações do Pacote de Informação Pacote de Submissão de Informação – Recebido de um Produtor – Inclui parte ou o todo de um ou mais Pacotes de Armazenamento de Informação Pacote Armazenamento de Informação (principal componente do modelo) – Pacote de Informação efetivamente preservado pelo SAAI – O conjunto Informação de Conteúdo e Informação de Descrição de Preservação associada deve estar completo Pacote de Disseminação de Informação – Enviado a um Consumidor pelo SAAI – Inclui parte ou o todo de um ou mais Pacotes de Armazenamento de Informação I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 22 Pacote de Armazenamento de Informação Descrição de Pacote derivado de Pacote de Armazenamento de Informação (PAI) p.e., Informação de suporte a pesquisas de PAI’s por clientes Informação de Conteúdo Informação de Pacote delimitado por p.e., Como encontrar a informação de Conteúdo e sua IDP em alguma mídia melhor descrito por p.e., • Documento impresso • Documento como um arquivo de dados eletrônico junto com sua descrição de formato • Conjunto de dados científicos consistindo de um arquivo de imagem, um arquivo texto e um arquivo com a descrição dos formatos dos outros arquivos Informação de Descrição de Preservação (IDP) p.e., Como a Informação de Conteúdo foi criada, quem a mantem, como se relaciona com outras informações e como sua integridade é assegurada I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 23 Visão do Fluxo de Dados Externo Produtor Pacotes de Submissão de Informação SAAI Pacotes de Armazenamento de Informação consultas resultados Pacotes de Disseminação de Informação pedidos Consumidor I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 24 Entidades Funcionais Planejamento de Preservação P R O D U T O R Info Descritiva Gerenciamento de Dados Info Descritiva consultas resultados Recepção Acesso pedidos PSI PAI Arquivamento PAI Administração do Sistema PDI C O N S U M I D O R ADMINISTRAÇÃO PSI = Pacote de Submissão de Informação PAI = Pacote de Armazenamento de Informação PDI = Pacote de Disseminação de Informação I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 25 Entidades Funcionais Recepção: fornece serviços e funções para aceitar os Pacotes de Submisão de Informação (PSI’s) dos Produtores e preparar os conteúdos para armazenamento e gerenciamento dentro do arquivo Arquivamento: fornece serviços e funções para armazenar, manter e recuperar os Pacotes de Armazenamento de Informação Gerenciamento de Dados: fornece serviços e funções para incluir, manter e acessar tanto para a informação descritiva que identifica e documenta os acervos do arquivo quanto para os dados de administração interna do arquivo Administração do Sistema: gerencia as operações do sistema de arquivo como um todo Planejamento de Preservação: monitora o ambiente do SAAI e fornece recomendações para garantir que a informação armazenada permaneça acessível à Comunidade Usuária Alvo ao longo do tempo mesmo que o ambiente computacional original torne-se obsoleto Acesso: auxilia os consumidores na descoberta da existência, descrição e localização de informacão armazenada no SAAI e permite que os mesmos requisitem e recebam produtos de informação I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 26 Planejamento de Preservação I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 27 Resumo do Modelo de Referência O modelo de referência aplica-se a todos os arquivos digitais, seus Produtores e Consumidores Identifica um conjunto mínimo de responsabilidades para que um arquivo seja considerado um SAAI Estabelece termos e conceitos comuns para comparar implementações mas não especifica uma implementação Fornece modelos detalhados tanto para funções quanto para informações de arquivos I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 28 Algumas Aplicações I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 29 Base para Arquitetura de Sistemas de Armazenamento de Informação Networked European Deposit Library (NEDLIB) em seu Deposit System for Electronic Publications (DSEP) National Library of Australia CURL Exemplars in Digital Archives (CEDARS) National Space Science Data Center (NSSDC) Centre de Donnees de la Physique des Plasmas (CDPP) em seu System for Preservation and Access to Data and Information (SIPAD) Metadata Encoding and Transmission Standard (METS) International Research on Permanent Authentic Records in Electronic Systems (InterPARES) Projeto de pesquisa nível doutorado “A preservação de documentos eletrônicos de caráter arquivístico: novos desafios, velhos problemas” (UFMG/ECI) I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 30 Melhoria de Comunicações e Produtividade entre Diferentes Comunidades National Archives and Records Administration e San Diego Super Computer Center Bibliotheque Nationale de France e Centre National d’Études Spatialies (CNES) Desenvolvedores do formato Hierarchical Data Format (HDF) do National Center for Supercomputing Applications (NCSA) e pesquisadores de DNA Desenvolvedores do Life Sciences Archive e pesquisadores de micro-gravidade United States Department of Agriculture e especialistas em preservação digital I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 31 Acompanhamento das Atividades Research Libraries Group (RLG) estabeleceu uma página Web para acompanhar os esforços e questões de implementação do OAIS — http://www.rlg.org/longterm/oais.html CCSDS/ISO Producer-Archive Interface Methodology Standard CCSDS Certification Coordination Function I CONGRESSO DE TECNOLOGIAS PARA GESTÃO DE DADOS E METADADOS - 26 DE SETEMBRO DE 2003 32