Formatos de metadados para bibliotecas, arquivos e museus Tendências -Garantia de interoperabilidade Marcia Lei Zeng, Kent State University, USA 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil • Introdução 1.1 O movimento dos metadados desde os anos 90s Crescimentos excepcional da World Wide Web e dos recursos na Web A emergência das bibliotecas digitais Muitas bibliotecas, arquivos e museus estão envolvidos com o desenvolvimento das coleções digitais, bibliotecas digitais, exibições digitais, etc. A necessidade de descrever e de organizar os estoques de recursos disponíveis na Web a partir de bibliotecas digitais e repositórios 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil A necessidade de metadados na sociedade Conhecimento Informação Dados 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Proliferação dos esquemas de metadados Esquemas de metadados têm sido desenvolvidos desde os anos 90 para diferentes tipos de recursos e para diferentes funções. 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil 1.2 Principais padrões de metadados para bibliotecas, arquivos e museus MARC MODS (Metadata Object Description Schema) MARCXML Dublin Core EAD (Encoded Archival Description) Categories for the Description of Works of Art (CDWA) VRA Core Categories Learning Object Metadata (LOM) 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Padrões de Metadados Existentes Descrição bibliográfica (geral) MARC (Machine Readable Cataloging) Dublin Core Element Set GILS (Government Information Locator Service) RFC 1807 (Format for Bibliographic Records) TEI Headers (Text Encoding Initiative) MCF (Meta Content Format) PICS (Platform for Internet Content Selection) SOIF (Summary Object Interchange Format) Dados numéricos ICPSR Data Documentation Initiative Standard for Survey Design and Statistical Methodology Metadata (SDSM) Dados geoespaciais Content Standards for Digital Geospatial Metadata (CSDGM) 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Padrões de metadados existentes (cont.) Imagens and objetos Categories for the Description of Works of Art (CDWA) VRA Core Categories MESL (Museum Education Site Licensing Project) Data Dictionary Object ID Checklist NISO Metadata for Images in XML Schema (MIX) IPTC (International Press Communications Council) Core Descrição do Plano da Coleção EAD (Encoded Archival Description) DTD Z39.50 Profile for Access to Digital Collection Educação Instructional management Systems (IMS) The Gateway to Educational Materials (GEM) Schema DC Education Schema Learning Objects Metadata (LOM) The Sharable Content Object Reference Model (SCORM) Computação para a Internet CORBA (Common Object Request Broker Architecture) 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Padrões de metadados existentes (cont.) Preservação e objetos digitais CEDARS Project: CEDARS Preservation Metadata Elements National Library of Australia. Preservation Metadata for Digital Collections:Exposure Draft Networked European Deposit Library. Metadata for Long Term Preservation PREMIS (PREservation Metadata: Implementation Strategies) Open Archival Information System (OAIS) Comércio eletrônico The INDEXS project ONIX (Online Information Exchange) Publishing Requirements for Industry Standard Metadata (PRISM) Gerenciamento de Direitos Rights Metadata DOI -- Digital Object Identifier Mídia-específica MPEG-4 and MPEG-7 for Audio and Video Música Standard Music Description Language (SMDL), ISO/IEC 10743 Padrões de metadados sobrepostos Não existe limite para o tipo ou a quantidade de recursos que podem ser descritos pelos metadados. Um padrão de metadados pode ser desenvolvido ou proposto para qualquer área que tiver interesse na recuperação e compartilhamento de recursos eletrônicos. Não existe limite para o número de padrões de metadados sobrepostos para qualquer tipo de recurso ou qualquer assunto específico. Ex., para se descrever recursos de museus ou recursos visuais existem pelo menos, 9 esquemas de metadados muito bem estruturados e muito bem documentados Não existe limite para os tipos de profissões ou assuntos específicos que poderiam estar envolvidos no desenvolvimento e aplicação de padrões de metadados 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil 1.3. Diferentes fases dos projetos de bibliotecas digitais Select a schema Finding out users’ needs Building a digital collection Providing search for this collection Federated search Providing search across collections Decisões sobre os metadados em diferentes fases (1) No início da fase: selecionar ou criar um esquema Que padrão de metadado nós deveríamos escolher? Nós deveríamos adaptar um esquema completo? Nós precisamos modificar um esquema? Parece que 3 esquemas são úteis para nós. Nós deveríamos adaptar os 3 esquemas? O nosso projeto utiliza o mesmo esquema que outro projeto 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Decisões sobre os metadados em diferentes fases (2) Na fase de construção da coleção digital Eu descobri que os nossos registros de metadados são muito simples e faltam dados importantes. O quê eu deveria fazer agora? Eu gostaria de fundir com os registros de outra coleção. Mas eles utilizam um formato diferente. O quê eu devo fazer? 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Decisões sobre os metadados em diferentes fases (3) Na fase da busca unificada e depois da integração Um grande projeto de biblioteca digital solicitou os nossos metadados para integrar o seu repositório. Entretanto, o nosso formato é diferente do deles. O que nós deveríamos fazer? Nós gostaríamos de de nos juntar a um catálogo coletivo e oferecer uma interface única para busca de todos os dados de várias coleções. Mas, nós temos formatos diferentes. Como poderíamos oferecer uma busca unificada? 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil TENDÊNCIAS A necessidade de metadados na sociedade “O movimento dos metadados” nos anos 90 Interoperabilidade dos metadados 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil 1.4 Interoperabilidade dos metadados -- Por quê é importante? Conciliar diversos esquemas num ambiente particular de busca Compartilhar e trocar dados Busca “One-stop” sem cortes (“unificada”) Interoperabilidade dos metadados: a habilidade de vários sistemas, que usam diferentes plataformas de hardware e de software, diferentes estruturas de dados e diferentes interfaces em trocar e compartilhar dados. -- NISO, Understanding Metadata http://www.niso.org/standards/resources/UnderstantingMetadata.pdf 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil 2. Implementação da Interoperabilidade em vários níveis Princípios dos metadados Simplicidade Modularidade Reutilização Extensibilidade Interoperabilidade 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Os vários níveis dos projetos de metadados Schema A Schema B Records Application Profile Repository Records Schema C b c a d 2.1 Nível de esquema 2.1.1 Origem Source schema e.g.:DC, VRA Core New schema Adaptação, modificação, expansão, adaptação parcial, tradução, etc. Esquema novo depende do esquema fonte 2.1 Nível de esquema MODS Mudança no formato de codificação, manuteñção dos elementos originais MARC MARC XML 2.1.1 Origem Adaptação, modificação, expansão, adaptação parcial, tradução, etc. Esquema novo depende do esquema fonte 2.1 Nível de esquema Versão reduzida, versão traduzida MODS MARC MARC XML DC DC in Various languages MARC Lite 2.1.1 Origem Adaptação, modificação, expansão, adaptação parcial, tradução, etc. Esquema novo depende do esquema fonte 2.1 Nível de esquema Dublin Core DC-ED -- audience Expansão ETD-MS* -- thesis.degree (name,level,disci pline,grantor) 2.1.1 Origem Adaptação, modificação, expansão, adaptação parcial, tradução, etc. Esquema novo depende do esquema fonte *ETD-MS: an Interoperability Metadata Standard for Electronic Theses and Dissertations BDTD Biblioteca Digital de Teses e Dissertações Data Providers MTD-Br OAI-PMH Other Harvesters Etd-ms DC Harvester IBICT ETD metadata repository Source: Pavani & Maffia. BDTD - The Brazilian National ETD Project. ETD 2005 BDTD Biblioteca Digital de Teses e Dissertações BDTD member institutions & numbers of ETDs – Sep 27, 2005 Source: Pavani & Maffia. BDTD - The Brazilian National ETD Project. ETD 2005 2.1 Nível de esquema Schema A 2.1.2 Perfil de aplicação -- como aqueles esquemas que contém elementos de dados desenhados de um ou mais namespaces* Schema B Schema C Application Profile -- Nunca take it or leave it, sempre take what you want, create what you need * para definir o contexto de um termo em particular, garantindo assim que o termo tenha uma definição única nos limites do namespace declarado. (Duval et al., 2002) Perfis de aplicação definições básicas Um perfil de aplicação (PA) é um relatório onde os termos são utilizados por uma organização, um recurso informacional, uma aplicação ou uma comunidade de usuário para o metadado. --Baker, 2003 for Dublin Core Metadata Initiative (DCMI) Usage Board). Um perfil de aplicação é uma reunião de elementos dos metadados selecionados de um ou mais esquemas de metadados e combinados em um esquema composto. -- Duval, E., et al. Metadata Principles and Practicalities D-Lib Magazine, April 2002 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil AVEL METADATA ELEMENT LIST Dublin Core elements supported by AVEL DC.Identifier DC.Title DC.Creator AGLS elements supported by AVEL DC.Subject AGLS.Availability DC.Description DC.Publisher DC.Contributor EDNA elements supported by AVEL EdNA.Review DC.Date DC.Type DC.Format DC.Language DC.Coverage DC.Relation DC.Rights Administrative elements supported by AVEL AC.Creator AC.DateCreated AVEL.Comments Projeto dos perfis de aplicação Selecionar o namespace da “base” de metadados Selecionar os elementos de outros namespaces de metadados Definir elementos dos metadados locais Impor a aplicação dos elementos Imposição fundamental Restrição do espaço para o valor Especificação de relacionamento e dependência Schema A Records Schema B Schema C 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Application Profile Records Perfis de aplicação Dublin Core DC-Library Application Profile (DC-Lib) DC Government Application Profile esclarece o uso do conjunto de elementos do metadado DC em bibliotecas e em aplicações e projetos relacionados com bibliotecas esclarece o uso do DC no contexto governamental DC Collection Description Application Profile 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Source: CORES Registry. http://cores.dsd.sztaki.hu/ 2.1 Nível de esquema Schema A Source definition Target definition Mapping definition Source Metadata Mapping template Target Metadata Mapping template language 2.1.3 Cruzamentos Schema B Cruzamentos entre elementos Esquemas são independentes 2.1.3 Cruzamentos Exemplos de cruzamentos: MARC21 para Dublin Core MARC para UNIMARC VRA para Dublin Core ONIX para books to MARCXML FGDC para MARC EAD para ISAD(G) ETD-MS para MARCXML Dublin Core/MARC/GILS MARC/LOM/DC ADL/FGDC/MARC/GILS Etc., etc., etc. 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Duas abordagens Objetivo Fonte VRA Core (3.0) Título Título. Variante Título. Tradução Título. Série Título.Entidade Maior Técnica Localização. Repositório atual Cruzamento Absoluto Dublin Core (com qualificadores) Cruzamento Relativo Dublin Core (com qualificadores) Título Título ----------------------------------------------- 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Título. Alternativo Formato Colaborador, Cobertura 2.1.3 Cruzamentos Mais operacional se delineado de esquema complexo para simples – one way street Vários graus de equivalência: One-to-one, one-to-many, many-to-one, one-zero Mais operacional se o número de esquemas envolvidos for pequeno Delinear múltiplos esquemas é extremamente trabalhoso, intensivo e requer um enorme esforço intelectual 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil 2.1 Nível de esquema Schema A Schema C Switch 2.1.4 Transferência Schema B Schema D Getty’s Crosswalk from CDWA to 7 Schemas http://www.getty.edu/research/conducting_research/standards/introm 2.1 Nível de esquema Schema A Funcionalidades do arquivo de metadados: • registro e publicação do esquema e perfis de aplicação • gerenciamento • busca e recuperação • cruzamento e links de cruzmento Schema B Metadata Registry Schema C 2.1.5 Registros dos metadados 2.1 Nível de esquema Schema A Schema B Metadata Registry Schema C Componentes fundamentais do arquivo •Modelos de dados •Identificação dos elementos •Identificação do esquema (conjuntos de elementos) •Identificação da codificação do esquema •Identificação do perfil de aplicação •Identificação do uso do elemento •Identificação do cruzamento do elemento 2.1.5 Registros dos metadados Extensões de diferentes arquivos (1) Domínio-cruzado e arquivo de esquemacruzado. Por exemplo, o arquivo UKOLN (UK Office for Library Networking)'s SCHEMAS http://www.schemasforum.org/registry/ . Agora, intitulado arquivo CORES http://cores.dsd.sztaki.hu/ 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Partners •PricewaterhouseCoopers •Fraunhofer Gesellschaft •Computer and Automation Research Institute, Hungarian Academy of Sciences (MTA SZTAKI) •UKOLN, University of Bath 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Extensões de diferentes arquivos (cont.) (2) Domínio-específico, arquivo de esquemacruzado. (3) Arquivo de um projecto-específico. For exemplo, o arquivo UKLON's MEG (Metadata for Education Group) facilita o registro do esquema num domínio educacional. O arquivo de metadados da European Library (TEL) foi estabelecido com o objetivo de registrar todas as atividades de metadados associadas à TEL. (4) Arquivo de esquema-específico Registro DC 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Dublin Core Metadata Registry (page 1) elements Element refinements Dublin Core Metadata Registry Element Refinements Controlled Vocabulary Terms Vocabulary and Encoding Schemes (page 2) Vários níveis dos projetos de metadados Schema A Records Schema B Schema C Application Profile Records 2.2 Nível de registro Records 2.2.1 Conversão de registros Ex.: MARC record MODS record MARC record MARCXML record LOM record DC record 。。。 Records Gazetteer Standard Report ADLstandard report Alexandria Digital Library Reports: Standard Report | Standard XML | ADLXML report Feature Name: Display name: Cold Boiling Lake - Shasta County - California - United States <?xml version="1.0" ?> Geographic name: Cold Boiling Lake Variant name: Soda Lake Feature Class: lakes from ADL Feature Type Thesaurus LAKE from GNIS Feature Classes Spatial Reference: Bounding Coordinates: Long: -121.4825 Lat: 40.4561 Long: -121.4825 Lat: 40.4561 Footprints: Geometry Type: Point Long: -121.4825 Lat: 40.4561 - <gazetteer-standard-report xmlns="http://www.alexandria.ucsb.edu/gazetteer" xmlns:gml="http://www.opengis.net/gml"> <identifier>adlgaz-1-6202475-58</identifier> - <codes> <code scheme="GNIS Feature ID Number">254759</code> </codes> <place-status>current</place-status> <display-name>Cold Boiling Lake - Shasta County - California - United States</display-name> - <names> <name primary="false" status="current">Soda Lake</name> <name primary="true" status="current">Cold Boiling Lake</name> </names> - <bounding-box> - <gml:coord> <gml:X>-121.4825</gml:X> <gml:Y>40.4561</gml:Y> </gml:coord> - <gml:coord> <gml:X>-121.4825</gml:X> <gml:Y>40.4561</gml:Y> </gml:coord> </bounding-box> - <footprints> - <footprint primary="true"> - <gml:Point> - <gml:coord> <gml:X>-121.4825</gml:X> <gml:Y>40.4561</gml:Y> </gml:coord> </gml:Point> </footprint> </footprints> - <classes> <class primary="true" thesaurus="ADL Feature Type Thesaurus">lakes</class> <class primary="false" thesaurus="GNIS Feature Classes">LAKE</class> </classes> Identification Code: adlgaz-1-6202475-58 Reference Codes: GNIS Feature ID Number: 254759 ADL recordismerged into NSDL Metadata Repository The ADL record converted to DC record More Information Title [DOQQ, Digital orthophoto quarter quadrangle], Soda Lake South SW, California. Creator United States Geological Survey Creator Analytical Surveys, Inc. Subject Aerial photographs digital raster; California Subject DOQQ; quad; Band interleaved by line; BIL Description Digital Orthophoto Quarter Quadrangles (black & white) cover the state of California, each quarter quadrangle covering an area 3.75 degrees by 3.75 degrees. Some quadrangles are still in process as of March 2002 Publisher U.S. Geological Survey Western Mapping Center Contributor Alexandria Digital Library Date 19970204 Date 19940528 Date 19971030 Type Image Type remote-sensing images Type aerial photographs Format 49189680 bytes Format BIL Format DOQQ Format Digital Orthophotographic Quarter Quadrangle Desafios da conversão de dados Como se designam nos cruzamentos: A1=B1 Como existem nos esquemas verdadeiros: A1 B1 B1 A1 B1 A1 Relacionamentos de combinação complexa One-to-One One-to-Many Many-to-One One-to-Zero Overlapping horizontally or vertically Controlled value spaces 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil 2.2 Nível de registro record New record record 2.2.2 Reutilização de Dados -- criação de novos registros de metadados Revisão dos princípios de metadados Simplicidade Modularidade Reutilização Extensibilidade Interoperabilidade Administrativ e metadata Technical metadata Descriptive metadata Use metadata 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Preservation metadata METS 2.2 Nível de registro - Metadata Encoding and Transmission Standard (Codificação dos metadados e padrão de transmissão) A arquitetura METS Fonte: Rebecca Guenther and Sally McCallum, New Metadata Standards For Digital Resources: MODS and METS. ASIST Bulletin, Dec/Jan 2002, Vol.29, No.2 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Codificação dos metadados e padrão de transmissão (METS) Um padrão para empacotar os metadados descritivos, administrativos e estruturais em um documento XML Uma estrutura para combinar diversas estruturas internas de metadados com esquemas externos (é o caso do MODS ou MIX) A seção de metadados descritivos pode apontar para o metadado descritivo externo ao documento METS http://www.loc.gov/standards/mets/METSOverview.v2.html 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Vários níveis dos projetos de metadados Schema A Records Schema B Schema C Application Profile Repository Records Portais Usúários user profiles Search & Discovery Metadata repository Advanced Discovery Access Management Collection Collection Collection Fonte: NSDL: Core Integration, Technical Overview, 2001 2.3 Nível de repositório Open Archives Initiative (OAI) e-print Antes do uso da OAI FTXT OPAC A&I image Open Archives Initiative (OAI) metadata e-print FTXT OPAC A&I image Open Archives Initiative (OAI) e-print metadata FTXT Creator Title Description Identifer Subject Type Format OPAC A&I image Vantagens da abordagem OAI 1. Os materiais podem ser amplamente acessados; 2. Os materiais podem ser explorados para diferentes propósitos por aqueles que originalmente motivaram a criação desses repositórios; 3. Serviços novos e melhorados podem ser construídos devido à possibilidade de acessar múltiplos repositórios; e 4. Há uma economia no custo em potencial inerente aos novos modelos de processos de comunicação científica que podem ser realizados a partir de uma abordagem com arquvos abertos. Resumido por Carpenter (2003) 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Conclusão -- Tendência: garantia da interoperabilidade dos metadados “No ambiente das bibliotecas digitais de hoje, onde diversas coleções precisam ser unificadas e ligadas em um recurso único, nós somos testemunhas do crescimento de diferentes metadados e da tentativa de harmonizar os recursos públicos nos padrões sobrepostos existentes.” -- Zorana Ercegovac. (1999). Introduction. Special topic issue: Integrating multiple overlapping metadata standards. Journal of The American Society for Information Science, 50(13):1165-1168. 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Considere: 1. Em que fase está o meu projeto? Select a schema Finding out users’ needs Building a digital collection Providing search for this collection Federated search Providing search across collections Considere: 2. Em que fase o meu projeto deveria tratar a questão de interoperabilidade? Schema A Schema B Records Application Profile Repository Records Schema C b c a d Considere: Eu posso usar qualquer um desses métodos? 1. Nível de esquema 1. origem 2. perfil de aplicação 3. RDF 4. cruzamentos 5. Transferênciascruzadas 6. estrutura (DLESE) 7. arquivo 2. Nível de registro 1. conversão de dados 2. Reutilização de dados, integração (METS) 3. Nível de repositório 1. protocolo OAI 2. delineamento do arquivo de autoridade 3. delineamento da coocorrência de metadados 4. registros enriquecidos (NSDL) Eu acredito que os métodos (em vermelho) deveriam ser considerados pelas bibliotecas brasileiras. Conclusão Interoperabilidade – um tema over-riding no ambiente digital e em rede Exigência de um esforço enorme, humano e mecânico Perfis de aplicação, arquivos de metadados, repositórios digitais baseados no protocolo OAI deveriam ser considerados no Brasil, em primeiro lugar, pelas comunidades das bibliotecas, dos arquivos e dos museus. 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil Obrigada! Questões? [email protected] Esta conferência baseou-se no trabalho de Marcia Zeng intitulado ‘Metadata Interoperability” apresentado no 2nd Advanced Digital Library Seminar em Xiamen, China, de 4-8 de julho de 2005. O artigo completo produzido com a Profa. Lois Chan foi publicado no D-Lib Magazine de junho de 2006. 2° Congresso INTEGRAR, June 2006, São Paulo, Brasil