25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 1 ORGANIZAÇÃO E REPRESENTAÇÃO DA INFORMAÇÃO (DIGITALIZADA) Arquivos, Bibliotecas e Museus nuno oliveira Universidade do Minho 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos A Internet e a Web 2 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 3 Um pouco de história... 1974 1974 Internet IP TCP 1990 Web Vinton Cerf Robert Kahn Timothy Berners-Lee 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 4 Um pouco de história… 1º Website Info.cern.ch foi criado em hypertexto (a primeira forma básica do HTML) HTML (HyperText Markup Language) conjunto de marcas para descrever a estrutura de um documento na web. HTML foi baseado no SGML (Standard Generalized Markup Language), usada para descrever dialetos de anotação 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 5 Um pouco de história… 1994 - Criado o W3C (World Wide Web Consortium) Inicia projeto: criar uma linguagem interpretável por software, e integrável com outras linguagens de onde nasce XML (eXtensible Markup Language) a metalinguagem para a criação de linguagens de anotação 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 6 Um pouco de história… Redesenho do acesso à informação! 1998 PageRank Larry Page Sergey Brin A importância de uma página web: - não depende do número de acessos com que conta... - depende do número de páginas que lhe apontam (e sua importância) 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 7 Um pouco de história… Redesenho do uso da web 2001 2003 Jimmy Wales Wikipedia Ramu Yalamanchi Hi5 WEB 2.0 Cooperação! 2004 Mark Zuckerberg Facebook 2005 2006 Steven Chen Youtube Even Williams Twiter (com Chad Hurley) Blogger (1999) Informação é criada pelos utilizadores! 25 e 26 de Outubro de 2012 8 I Encontro de Arquivos Contemporâneos Um pouco de história... Redesenho da Web WEB 3.0 ou WEB Semântica Projeto iniciado em 2001 Dados na web interpretáveis por computadores Atribuição de significado aos conteúdos na web Interoperabilidade e Cooperação Inteligência Artificial Ontologias Anotação e Metadados Relacionamento semântico entre dados 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos Os Arquivos e a Informação 9 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos No início era o documento! • O Documento era o centro do arquivo • O interesse no arquivo era por parte da história • O arquivo era visto como auxílio a historiadores 10 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 11 Mas o documento foi custodiado… • Nacionalização de bens • Custódia de bens nacionalizados • Arquivos centralizados em edifícios pertencentes ao estado • Arquivos públicos e privados são destruídos • Perde-se a identidade do documento como um elemento no seu contexto original • Mudança no paradigma arquivístico • Mas investigação histórica continua a ser o mote para o arquivo 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 12 E depois foi bifurcado... • Evolução da sociedade • Evolução das organizações, administrações e instituições • Produção de informação não histórica • Separação dos arquivos em Históricos e Administrativos • Arquivos administrativos • Novo paradigma arquivístico • Pragmatismo • Novas técnicas para organização e tratamento de informação • Facilitação no acesso à informação 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 13 No final era a Informação! • O documento deixa de ser o foco do arquivo • A informação passa a ser o objeto de trabalho dos arquivistas • Tratamento de informação passa a ser visto como ciência • Não só no contexto de arquivos mas (e até primeiro) em museus e bibliotecas • Informática e Ciências da Informação e da Documentação caminham de mãos dadas • Técnicas de Preservação, Anotação, Digitalização e Pesquisa • Uniformização da Informação para interoperabilidade • Etc. 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 14 A disponibilização da informação • Evolução da Web • Maior disponibilidade de informação • Acesso facilitado à informação • Aparecimento de standards para representação de informação • Facilitação da Interoperabilidade entre sistemas de informação • Evolução da mentalidade arquivista • Necessidade de aceder pragmaticamente à Informação • Aparecimento de novos tipos de “documentos” • Necessidade de rever métodos de gestão de informação • Desejo de troca de informação entre sistemas de informação arquivada 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos Em busca da Interoperabilidade 15 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 16 Uniformização de Arquivos Modelo OAIS (Open Archival Information System) Arquitetura standard para a construção de repositórios e arquivos digitais Modelo para acesso aberto a informação a ser preservada a longo-termo 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 17 Comunicação entre Arquivos Arquivos não necessitam mais de estar de costas voltadas arquivo Troca de Informação arquivo Implementação de Protocolos de Comunicação OAI – PMH SWORD (Open Archive Initiative – Protocol for Metadata Harvesting) (Simple Web-service Offering Repository Deposit) Arquivos importam e exportam informação nestes standards Providers e Harvesters Auxiliam a comunicação e integração de software com agregadores de informação 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 18 Pesquisa Federada arquivo arquivo arquivo arquivo arquivo Ponto de Acesso - Um ponto de acesso - Uma query - Resultados de procura provenientes de várias portais agregadores de informação SRU/CQL (Search Retrieval via URL / Context Query Language) Protocolo para queries de procura sobre a internet CQL define a sintaxe para a escrita de queries 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 19 Dados, Informação e Conhecimento 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 20 Dados, Informação e Conhecimento Dados Entidades sintáticas (valores, quantidades, etc.) passíveis de serem “medidas” e processados Informação Relacionamento semântico entre os dados atribuindolhes um significado Conhecimento Estruturação e organização da informação adquirida como resultado de um processo cognitivo 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 21 Informação, o segredo! Um bombeiro dos Voluntários da Aguda (Gaia), de 49 anos, morreu, esta segunda-feira de manhã, na sequência de um acidente com uma ambulância da corporação, na A29, em Arcozelo. notícia retirada do JN a 2012-10-22 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 22 Informação, o segredo! Um bombeiro dos Voluntários da Aguda (Gaia), de 49 anos, morreu, esta segunda-feira de manhã, na sequência de um acidente com uma ambulância da corporação, na A29, em Arcozelo. notícia retirada do JN a 2012-10-22 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 23 Informação, o segredo! <localidade> <corporação> Um bombeiro dos Voluntários da Aguda (Gaia), <idade> <evento> <data> de 49 anos, morreu, esta segunda-feira de <motivo> manhã, na sequência de um acidente com uma <autoestrada> <localidade> ambulância da corporação, na A29, em Arcozelo. notícia retirada do JN a 2012-10-22 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 24 Informação, o segredo! Anotação (interna) de documentos Inscrição de notas, comentários ou marcas num documento que ajudam a clarificar/normalizar o seu conteúdo. Marcas dão significado aos dados 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 25 Informação, o segredo (2)! Um bombeiro dos Voluntários da Aguda (Gaia), de 49 anos, morreu, esta segunda-feira de manhã, na sequência de um acidente com uma ambulância da corporação, na A29, em Arcozelo. Título = “Bombeiro morre em acidente na A29” Data = “2012-10-22” Criador = “Jornal de Notícias” Tipo = “Texto” Tema = “Acidente Mortal” Formato = “text/plain” Descrição = “Notícia sobre morte de bombeiro na sequência de um acidente em autoestrada.” Identificador = “http://goo.gl/e84GL” Linguagem = “PT” Editor = “Jornal de Notícias” 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 26 Informação, o segredo (2)! Enriquecimento da informação com Anotação (externa) de documentos usando Metadados Dados sobre os dados Definem a semântica dos dados externos ao documento ... que não são expressos no conteúdo do documento ... 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos Metadados e os Documentos 27 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 28 Documentos O que é considerado um documento? Os tipos de documento são variados! Fotografia Livro Página Web Artigo Científico Passaporte Certificado Filme Relatório Biografia Fatura Gravação Áudio Cada tipo pode ser descrito de várias formas... ... depende, claramente, do contexto e da sua utilização 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 29 Metadados do Documento Três grandes tipos de metadados... Descritivos Descrevem os dados essenciais do recurso. E.g., título, autor, etc. Administrativos Descrevem dados administrativos que ajudam na manutenção do documento. E.g., a data de criação, como foi a criação, etc. Estruturais Descrevem como o recurso é composto. E.g., ordenação de páginas, organização em sistema de ficheiros 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 30 Esquemas de Metadados Conjunto de metadados desenhado em específico para um dado propósito ex. descrever um determinado relatório... Tem, geralmente, um contexto de utilização associado! Definem a semântica (e sintaxe) dos metadados e seus conteúdos Podem completar-se, descrevendo um documento para vários propósitos 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 31 Esquemas de Metadados - Dublin Core – para simples descrição de um documento - TEI (Text Encoding Initiative) – para anotação de textos eletrónicos (e.g., romances) - METS (Metadata Encoding and Transmission Standard) – para expressar estrutura de um objeto digital assim como para o descrever e localizar os ficheiros que o compõem - EAD (Encoded Archival Description) – para anotar dados em inventários ou índices em linha - ISAD(g) (General International Standard Archival Description ) – guias para descrever arquivos - LOM (Learning Object Metadata) – para fomentar o uso de recursos didáticos suportados por tecnologia - CDWA (Categories for Description of Works of Art) – para descrever objetos visuais como pinturas ou esculturas 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos Uma questão de Semântica 32 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 33 Nem só de pão vive o homem... A anotação de documentos ajuda o humano a perceber com maior exatidão o conteúdo e o próprio documento Nesta perspetiva As marcas de anotação por si só fornecem o significado ao valor marcado E as relações semânticas que entre elas existem... Porque (melhor ou pior) o humano conhece o domínio MAS As máquinas NÃO!!! É necessário “ensinar-lhes” o domínio! 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 34 Organização semântica da Informação Ontologias “Uma ontologia é um artefacto que define um conjunto de conceitos, relações e axiomas para um domínio de saber específico, representando e organizando o conhecimento implícito (de forma a que um conjunto de sistemas cooperativos concordem e o partilhem).” Retirado, traduzido e adaptado de “Ontological Adaptive Integration Of Reverse Engineering Tools” 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 35 Organização semântica da Informação Ontologias O = (C, R, A) - C – Entidades da Ontologia - CC – Conceitos (Ex: Mãe) - CI – Instâncias dos conceitos (Ex: Teresa) - R – Relações entre entidades da Ontologia - RH – Relações taxonómicas/hierárquicas entre conceitos (Ex: Mãe ‘é_uma’ Pessoa) - RI – Relações entre conceitos e Instâncias (Ex: Teresa ‘é_uma’ Mãe) - RS – Relações não taxonómicas entre conceitos (Ex: Mãe ‘tem_filho’ Filho) - RP – Propriedades dos conceitos (Ex: Pessoa ‘data_de_nascimento’ 1986-02-26) - A – Axiomas. Dão consistência à ontologia e são usados para inferir novo conhecimento (Ex: “Se duas Filhas têm a mesma mãe então são Irmãs”) 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 36 Ontologias…Metadados… Cooperação? Cooperação Só haverá cooperação entre sistemas (de arquivos) se todos falarem a mesma língua! XML é a língua franca para a interoperabilidade (de informação)! Mas o conteúdo em XML pode ser interpretado de várias maneiras! Metadados Mas os metadados têm um significado bem definido! No entanto o significado depende do domínio específico... Ontologias As ontologias descrevem um domínio! Os metadados (conceitos nas ontologias) podem ser relacionados de forma unívoca numa tal estrutura... Uma vez aceites as relações inter-metadados , os sistemas podem cooperar porque se percebem mutuamente! 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos Os nossos Projetos 37 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 38 Metadados na Pesquisa Semântica De documentos Jurídicos! • Criação de Ontologia para uma área jurídica • Levantamento de metadados associados a documentos dessa área • Relacionamento entre metadados e conceitos ontológicos • Implementação da pesquisa de documentos baseada na ontologia • Benefícios da pesquisa ontológica na obtenção de informação jurídica 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 39 Povoamento Automático de Ontologias A partir da anotação de documentos Jurídicos! • Área jurídica do direito de família • Criação de Ontologia para representar conhecimento sobre a área • Utilização de processamento de linguagem natural para reconhecer padrões e anotar textos jurídicos • Informação anotada usada para povoar ontologias • Diminuição dos custos e esforços na construção de bases de conhecimento 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 40 Geração Automática de Museus Virtuais A partir da anotação de espólio de arquivos e museus • Base de dados de espólio (de museus e arquivos) anotado • Ontologia geral para descrever o conhecimento anotado • Construção de salas de exposição virtuais para aprendizagem a partir de especificações sobre a vistas da ontologia e os documentos anotados • Navegação dirigida pela semântica • Uso de browsers semânticos • Projeto CoNVEM / Geny 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 41 Geração Automática de Museus Virtuais Geny Space Ontology Central Ontology GenySL Specifications SemDOR Assets Contribution Navigation and Feedback Generates Semantic Contribution Visitor's knowledge Contribution Learning Spaces Navigation and Feedback 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 42 Geração Automática de Museus Virtuais • Projeto siME, Projeto de Mestrado, Genio • Museu da Emigração e das Comunidades (Fafe) 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 43 Geração Automática de Museus Virtuais 25 e 26 de Outubro de 2012 Outros Projetos I Encontro de Arquivos Contemporâneos 44 25 e 26 de Outubro de 2012 Qwiki I Encontro de Arquivos Contemporâneos 45 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos Google Art Project 46 25 e 26 de Outubro de 2012 Sumário I Encontro de Arquivos Contemporâneos 47 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 48 Sumário Tim Berners-Lee adaptou-se à (na altura) nova tendência da comunicação entre computadores e revolucionou-a! Tal revolução levou à criação de espaços partilhados de informação, acessíveis por todo o mundo! A Web continuou a evoluir ao ponto de se estar agora a preparar para a sua terceira fase, onde as máquinas irão compreenderão o conteúdo dos recursos documentais... Os arquivos e os seus profissionais também evoluíram com o tempo, adaptando-se às demandas da sociedade e à própria evolução tecnológica! A noção de anotações e metadados como o segredo para a obtenção de informação, e o seu relacionamento semântico com base em ontologias, parece estar em consonância com a noção semântica que a web quer para si. A uniformização de arquivos como repositórios de Informação, aumentam a possibilidade de cooperarem, promovendo a troca de informação (em tempos custodiada) 25 e 26 de Outubro de 2012 I Encontro de Arquivos Contemporâneos 49 ORGANIZAÇÃO E REPRESENTAÇÃO DA INFORMAÇÃO Arquivos, Bibliotecas e Museus nuno oliveira Universidade do Minho