7 de Maio de 2013 18º Webinar BAD 1 ORGANIZAÇÃO E REPRESENTAÇÃO DA INFORMAÇÃO (DIGITALIZADA) Museus, Arquivos e Bibliotecas nuno oliveira Pedro Rangel Henriques Universidade do Minho 7 de Maio de 2013 A Internet e a Web 18º Webinar BAD 2 7 de Maio de 2013 18º Webinar BAD 3 Um pouco de história... 1974 1974 Internet IP TCP 1990 Web Vinton Cerf Robert Kahn Timothy Berners-Lee 7 de Maio de 2013 18º Webinar BAD 4 Um pouco de história... 1º Website Info.cern.ch foi criado em hypertexto (a primeira forma básica do HTML) HTML (HyperText Markup Language) conjunto de marcas para descrever a estrutura de um documento na web. HTML foi baseado no SGML (Standard Generalized Markup Language), usada para descrever dialetos de anotação 7 de Maio de 2013 18º Webinar BAD 5 Um pouco de história… 1994 - Criado o W3C (World Wide Web Consortium) Inicia projeto: criar uma linguagem interpretável por software, e integrável com outras linguagens de onde nasce XML (eXtensible Markup Language) a metalinguagem para a criação de linguagens de anotação 7 de Maio de 2013 6 18º Webinar BAD Um pouco de história… Redesenho do acesso à informação! 1998 PageRank Larry Page Sergey Brin A importância de uma página web: - não depende do número de acessos com que conta... - depende do número de páginas que lhe apontam (e sua importância) 7 de Maio de 2013 7 18º Webinar BAD Um pouco de história… Redesenho do uso da web 2001 2003 Jimmy Wales Wikipedia Ramu Yalamanchi Hi5 WEB 2.0 Cooperação! 2004 Mark Zuckerberg Facebook 2005 2006 Steven Chen Youtube Even Williams Twiter (com Chad Hurley) Blogger (1999) Informação é criada pelos utilizadores! 7 de Maio de 2013 8 18º Webinar BAD Um pouco de história... Redesenho da Web WEB 3.0 ou WEB Semântica Projeto iniciado em 2001 Dados na web interpretáveis por computadores Atribuição de significado aos conteúdos na web Interoperabilidade e Cooperação Inteligência Artificial Ontologias Anotação e Metadados Relacionamento semântico entre dados 7 de Maio de 2013 18º Webinar BAD Instituições detentoras da Informação IDIs 9 7 de Maio de 2013 18º Webinar BAD 10 O Documento • O Documento era o centro das IDIs! • Documento visto como qualquer peça informativa • O interesse nestes documentos era por parte da história 7 de Maio de 2013 18º Webinar BAD Evolução social e institucional • Evolução da sociedade • Evolução das organizações, administrações e instituições • Produção de informação não histórica • Evolução das IDIs • Históricas – informação histórica e cultural • Museus, bibliotecas (e arquivos) • Administrativas – preservação informação social e institucional • Arquivos, bibliotecas (e museus) • IDIs • Mudança de pensamento/paradigma • Pragmatismo • Novas técnicas para organização e tratamento de informação • Facilitação no acesso à informação 11 7 de Maio de 2013 18º Webinar BAD 12 A Informação! • O documento deixa de ser o foco das IDIs • A informação é o novo objeto de trabalho • Tratamento de informação passa a ser visto como Ciência • Primeiro no contexto dos Museus e das Bibliotecas e, posteriormente, em Arquivos • Evolução conjunta da Informática e da Ciência da Informação • Técnicas de Preservação, Anotação, Digitalização e Pesquisa • Uniformização da Informação para interoperabilidade • Etc. 7 de Maio de 2013 18º Webinar BAD 13 A disponibilização da informação • Evolução da Web • Maior disponibilidade de informação • Acesso facilitado à informação • Aparecimento de standards para representação de informação • Facilitação da Interoperabilidade entre sistemas de informação • Consequência das IDIs • Necessidade de aceder/disponibilizar, pragmaticamente, Informação • Aparecimento de novos tipos de “documentos” • Necessidade de rever métodos de gestão de informação • Desejo de troca de informação entre sistemas nas IDIs 7 de Maio de 2013 18º Webinar BAD Em busca da Interoperabilidade 14 7 de Maio de 2013 18º Webinar BAD 15 Uniformização de IDIs Modelo OAIS (Open Archival Information System) Arquitetura standard para a construção de repositórios e arquivos digitais Modelo para acesso aberto a informação a ser preservada a longo-termo 7 de Maio de 2013 16 18º Webinar BAD Comunicação entre IDIs IDIs não necessitam mais de estar de costas voltadas IDI Troca de Informação IDI Implementação de Protocolos de Comunicação OAI – PMH SWORD (Open Archive Initiative – Protocol for Metadata Harvesting) (Simple Web-service Offering Repository Deposit) IDIs importam e exportam informação nestes standards Providers e Harvesters Auxiliam a comunicação e integração de software com agregadores de informação 7 de Maio de 2013 17 18º Webinar BAD Pesquisa Federada IDI IDI IDI IDI IDI Ponto de Acesso - Um ponto de acesso - Uma questão - Resultados de procura provenientes de várias portais agregadores de informação SRU/CQL (Search Retrieval via URL / Context Query Language) Protocolo para queries de procura sobre a internet CQL define a sintaxe para a escrita de queries 7 de Maio de 2013 18º Webinar BAD 18 Dados, Informação e Conhecimento 7 de Maio de 2013 18º Webinar BAD 19 Dados, Informação e Conhecimento Dados Entidades sintáticas (valores, quantidades, etc.) passíveis de serem “medidas” e processados Informação Relacionamento semântico entre os dados atribuindolhes um significado Conhecimento Estruturação e organização da informação adquirida como resultado de um processo cognitivo 7 de Maio de 2013 18º Webinar BAD 20 Informação, o segredo! A Associação Portuguesa de Editores e Livreiros agradeceu, esta sexta-feira, a Pinto da Costa a oferta do estádio do Dragão para realizar a Feira do Livro do Porto. Apesar da proposta, o evento continua suspenso. notícia retirada do JN a 2013-05-03 7 de Maio de 2013 18º Webinar BAD 21 Informação, o segredo! A Associação Portuguesa de Editores e Livreiros agradeceu, esta sexta-feira, a Pinto da Costa a oferta do estádio do Dragão para realizar a Feira do Livro do Porto. Apesar da proposta, o evento continua suspenso. notícia retirada do JN a 2013-05-03 7 de Maio de 2013 22 18º Webinar BAD Informação, o segredo! <associação> A Associação Portuguesa de Editores e Livreiros <data> <pessoa> agradeceu, esta sexta-feira, a Pinto da Costa a oferta <estádio> <evento> do estádio do Dragão para realizar a Feira do Livro do <cidade> Porto. Apesar da proposta, o evento continua suspenso. notícia retirada do JN a 2013-05-03 7 de Maio de 2013 18º Webinar BAD 23 Informação, o segredo! Anotação (interna) de documentos Inscrição de notas, comentários ou marcas num documento que ajudam a clarificar/normalizar o seu conteúdo. Marcas dão significado aos dados 7 de Maio de 2013 18º Webinar BAD 24 Informação, o segredo (2)! A Associação Portuguesa de Editores e Livreiros agradeceu, esta sexta-feira, a Pinto da Costa a oferta do estádio do Dragão para realizar a Feira do Livro do Porto. Apesar da proposta, o evento continua suspenso. Título = “Feira do Livro continua suspensa após proposta de Pinto da Costa” Data = “2013-05-03” Tipo = “Texto” Criador = “Jornal de Notícias” Formato = “text/plain” Tema = “Cultura” Identificador = “http://goo.gl/i1SS5” Descrição = “Notícia sobre a realização da Feira do Livro do Porto em 2013” Editor = “Jornal de Notícias” Língua = “PT” 7 de Maio de 2013 18º Webinar BAD 25 Informação, o segredo (2)! Enriquecimento da informação com Anotação (externa) de documentos usando Metadados Dados sobre os dados Definem a semântica dos dados externos ao documento ... que não são expressos no conteúdo do documento ... 7 de Maio de 2013 18º Webinar BAD Metadados e os Documentos 26 7 de Maio de 2013 27 18º Webinar BAD Documentos O que é considerado um documento? Os tipos de documento são variados! Fotografia Livro Página Web Artigo Científico Passaporte Certificado Filme Relatório Biografia Fatura Gravação Áudio Cada tipo pode ser descrito de várias formas... ... depende, claramente, do contexto e da sua utilização 7 de Maio de 2013 18º Webinar BAD 28 Metadados do Documento Três grandes tipos de metadados... Descritivos Descrevem os dados essenciais do recurso. E.g., título, autor, etc. Administrativos Descrevem dados administrativos que ajudam na manutenção do documento. E.g., a data de criação, como foi a criação, etc. Estruturais Descrevem como o recurso é composto. E.g., ordenação de páginas, organização em sistema de ficheiros 7 de Maio de 2013 18º Webinar BAD 29 Esquemas de Metadados Conjunto de metadados desenhado em específico para um dado propósito ex. descrever um determinado relatório... Tem, geralmente, um contexto de utilização associado! Definem a semântica (e sintaxe) dos metadados e seus conteúdos Podem completar-se, descrevendo um documento para vários propósitos 7 de Maio de 2013 18º Webinar BAD 30 Esquemas de Metadados - Dublin Core – para simples descrição de um documento - TEI (Text Encoding Initiative) – para anotação de textos eletrónicos (e.g., romances) - METS (Metadata Encoding and Transmission Standard) – para expressar estrutura de um objeto digital assim como para o descrever e localizar os ficheiros que o compõem - EAD (Encoded Archival Description) – para anotar dados em inventários ou índices em linha - ISAD(g) (General International Standard Archival Description ) – guias para descrever arquivos - LOM (Learning Object Metadata) – para fomentar o uso de recursos didáticos suportados por tecnologia - CDWA (Categories for Description of Works of Art) – para descrever objetos visuais como pinturas ou esculturas 7 de Maio de 2013 18º Webinar BAD Uma questão de Semântica 31 7 de Maio de 2013 18º Webinar BAD 32 Nem só de pão vive o homem... A anotação de documentos ajuda o humano a perceber com maior exatidão o conteúdo e o próprio documento Nesta perspetiva As marcas de anotação por si só fornecem o significado ao valor marcado E as relações semânticas que entre elas existem... Porque (melhor ou pior) o humano conhece o domínio MAS As máquinas NÃO!!! É necessário “ensinar-lhes” o domínio! 7 de Maio de 2013 18º Webinar BAD 33 Organização semântica da Informação Ontologias “Uma ontologia é um artefacto que define um conjunto de conceitos, relações e axiomas para um domínio de saber específico, representando e organizando o conhecimento implícito (de forma a que um conjunto de sistemas cooperativos concordem e o partilhem).” Retirado, traduzido e adaptado de “Ontological Adaptive Integration Of Reverse Engineering Tools” 7 de Maio de 2013 18º Webinar BAD 34 Organização semântica da Informação Ontologias O = (C, R, A) - C – Entidades da Ontologia - CC – Conceitos (Ex: Mãe, Pessoa, Filho, Irmão) - CI – Instâncias dos conceitos (Ex: Teresa, Nuno) - R – Relações entre entidades da Ontologia - RH – Relações taxonómicas/hierárquicas entre conceitos (Ex: Mãe ‘é_uma’ Pessoa) - RI – Relações entre conceitos e Instâncias (Ex: Teresa ‘é_uma’ Mãe) - RS – Relações não taxonómicas entre conceitos (Ex: Mãe ‘tem_filho’ Filho) - RP – Propriedades dos conceitos (Ex: Pessoa ‘data_de_nascimento’ 1986-02-26) - A – Axiomas. Dão consistência à ontologia e são usados para inferir novo conhecimento (Ex: “Se dois Filho têm a mesma Mãe então são Irmão”) 7 de Maio de 2013 18º Webinar BAD 35 Ontologias…Metadados… Cooperação? Cooperação Só haverá cooperação entre sistemas (de arquivos) se todos falarem a mesma língua! XML é a língua franca para a interoperabilidade (de informação)! Mas o conteúdo em XML pode ser interpretado de várias maneiras! Metadados Mas os metadados têm um significado bem definido! No entanto o significado depende do domínio específico... Ontologias As ontologias descrevem um domínio! Os metadados (conceitos nas ontologias) podem ser relacionados de forma unívoca numa tal estrutura... Uma vez aceites as relações inter-metadados , os sistemas podem cooperar porque se percebem mutuamente! 7 de Maio de 2013 Os nossos Projetos 18º Webinar BAD 36 7 de Maio de 2013 18º Webinar BAD 37 Metadados na Pesquisa Semântica De documentos Jurídicos! • Criação de Ontologia para uma área jurídica • Levantamento de metadados associados a documentos dessa área • Relacionamento entre metadados e conceitos ontológicos • Implementação da pesquisa de documentos baseada na ontologia • Benefícios da pesquisa ontológica na obtenção de informação jurídica 7 de Maio de 2013 18º Webinar BAD 38 Povoamento Automático de Ontologias A partir da anotação de documentos Jurídicos! • Área jurídica do direito de família • Criação de Ontologia para representar conhecimento sobre a área • Utilização de processamento de linguagem natural para reconhecer padrões e anotar textos jurídicos • Informação anotada usada para povoar ontologias • Diminuição dos custos e esforços na construção de bases de conhecimento 7 de Maio de 2013 18º Webinar BAD 39 Geração Automática de Museus Virtuais A partir da anotação de espólio de arquivos e museus • Base de dados de espólio (de museus e arquivos) anotado • Ontologia geral para descrever o conhecimento anotado • Construção de salas de exposição virtuais para aprendizagem a partir de especificações sobre a vistas da ontologia e os documentos anotados • Navegação dirigida pela semântica • Uso de browsers semânticos • Projeto CoNVEM / Geny 7 de Maio de 2013 18º Webinar BAD 40 Geração Automática de Museus Virtuais Geny Space Ontology Central Ontology GenySL Specifications SemDOR Assets Contribution Navigation and Feedback Generates Semantic Contribution Visitor's knowledge Contribution Learning Spaces Navigation and Feedback 7 de Maio de 2013 18º Webinar BAD 41 Geração Automática de Museus Virtuais • Projeto siME • Museu da Emigração e das Comunidades (Fafe) 7 de Maio de 2013 18º Webinar BAD 42 Geração Automática de Museus Virtuais 7 de Maio de 2013 18º Webinar BAD 43 Navegação Conceptual sobre Informação • Projeto Génio • Espólio do Museu da Emigração e das Comunidades (Fafe) • Ontologia descreve o fenómeno migratório • Navegação conceptual sobre a informação • navegação entre os objectos, mantendo a relação lógica definida pela ontologia http://epl.di.uminho.pt/~ritafaria/MEC/index.php 7 de Maio de 2013 18º Webinar BAD 44 7 de Maio de 2013 18º Webinar BAD 45 Navegação Conceptual sobre Informação 7 de Maio de 2013 18º Webinar BAD 46 Navegação Conceptual sobre Informação 7 de Maio de 2013 18º Webinar BAD 47 Navegação Conceptual sobre Informação 7 de Maio de 2013 Outros Projetos 18º Webinar BAD 48 7 de Maio de 2013 Qwiki 18º Webinar BAD 49 7 de Maio de 2013 Google Art Project 18º Webinar BAD 50 7 de Maio de 2013 Sumário 18º Webinar BAD 51 7 de Maio de 2013 18º Webinar BAD 52 Sumário Tim Berners-Lee adaptou-se à (na altura) nova tendência da comunicação entre computadores e revolucionou-a! Tal revolução levou à criação de espaços partilhados de informação, acessíveis por todo o mundo! A Web continuou a evoluir ao ponto de se estar agora a preparar para a sua terceira fase, onde as máquinas irão compreenderão o conteúdo dos recursos documentais... As IDIs e os seus profissionais também evoluíram com o tempo, adaptando-se às demandas da sociedade e à própria evolução tecnológica! A noção de anotações e metadados como o segredo para a obtenção de informação, e o seu relacionamento semântico com base em ontologias, parece estar em consonância com a noção semântica que a web quer para si. A uniformização de arquivos como repositórios de Informação, aumentam a possibilidade de cooperarem, promovendo a troca de informação (em tempos custodiada) 7 de Maio de 2013 18º Webinar BAD 53 ORGANIZAÇÃO E REPRESENTAÇÃO DA INFORMAÇÃO Arquivos, Bibliotecas e Museus nuno oliveira Pedro Rangel Henriques Universidade do Minho