7 de Maio de 2013
18º Webinar BAD
1
ORGANIZAÇÃO E REPRESENTAÇÃO DA
INFORMAÇÃO (DIGITALIZADA)
Museus, Arquivos e Bibliotecas
nuno oliveira
Pedro Rangel Henriques
Universidade do Minho
7 de Maio de 2013
A Internet e a Web
18º Webinar BAD
2
7 de Maio de 2013
18º Webinar BAD
3
Um pouco de história...
1974
1974
Internet
IP
TCP
1990 Web
Vinton Cerf
Robert Kahn
Timothy Berners-Lee
7 de Maio de 2013
18º Webinar BAD
4
Um pouco de história...
1º Website Info.cern.ch foi criado em hypertexto
(a primeira forma básica do HTML)
HTML (HyperText Markup Language)
conjunto de marcas para descrever a
estrutura de um documento na web.
HTML foi baseado no SGML
(Standard Generalized Markup Language),
usada para descrever dialetos de anotação
7 de Maio de 2013
18º Webinar BAD
5
Um pouco de história…
1994 - Criado o W3C (World Wide Web Consortium)
Inicia projeto: criar uma linguagem interpretável
por software, e integrável com outras linguagens
de onde nasce
XML (eXtensible Markup Language)
a
metalinguagem para a criação de linguagens de anotação
7 de Maio de 2013
6
18º Webinar BAD
Um pouco de história…
Redesenho do acesso à informação!
1998
PageRank
Larry Page
Sergey Brin
A importância de uma página web:
- não depende do número de acessos com que conta...
- depende do número de páginas que lhe apontam (e sua
importância)
7 de Maio de 2013
7
18º Webinar BAD
Um pouco de história…
Redesenho do uso da web
2001
2003
Jimmy Wales
Wikipedia
Ramu Yalamanchi
Hi5
WEB 2.0
Cooperação!
2004
Mark Zuckerberg
Facebook
2005
2006
Steven Chen
Youtube
Even Williams
Twiter
(com Chad Hurley)
Blogger (1999)
Informação é criada pelos utilizadores!
7 de Maio de 2013
8
18º Webinar BAD
Um pouco de história...
Redesenho da Web
WEB 3.0 ou WEB Semântica
Projeto iniciado em
2001
Dados na web
interpretáveis por
computadores
Atribuição de
significado aos
conteúdos na web
Interoperabilidade e
Cooperação
Inteligência Artificial
Ontologias
Anotação e
Metadados
Relacionamento
semântico entre
dados
7 de Maio de 2013
18º Webinar BAD
Instituições detentoras da Informação
IDIs
9
7 de Maio de 2013
18º Webinar BAD
10
O Documento
• O Documento era o centro das IDIs!
• Documento visto como qualquer peça informativa
• O interesse nestes documentos era por parte da história
7 de Maio de 2013
18º Webinar BAD
Evolução social e institucional
• Evolução da sociedade
• Evolução das organizações, administrações e instituições
• Produção de informação não histórica
• Evolução das IDIs
• Históricas – informação histórica e cultural
• Museus, bibliotecas (e arquivos)
• Administrativas – preservação informação social e institucional
• Arquivos, bibliotecas (e museus)
• IDIs
• Mudança de pensamento/paradigma
• Pragmatismo
• Novas técnicas para organização e tratamento de informação
• Facilitação no acesso à informação
11
7 de Maio de 2013
18º Webinar BAD
12
A Informação!
• O documento deixa de ser o foco das IDIs
• A informação é o novo objeto de trabalho
• Tratamento de informação passa a ser visto como Ciência
• Primeiro no contexto dos Museus e das Bibliotecas e, posteriormente,
em Arquivos
• Evolução conjunta da Informática e da Ciência da Informação
• Técnicas de Preservação, Anotação, Digitalização e Pesquisa
• Uniformização da Informação para interoperabilidade
• Etc.
7 de Maio de 2013
18º Webinar BAD
13
A disponibilização da informação
• Evolução da Web
• Maior disponibilidade de informação
• Acesso facilitado à informação
• Aparecimento de standards para representação de informação
• Facilitação da Interoperabilidade entre sistemas de informação
• Consequência das IDIs
• Necessidade de aceder/disponibilizar, pragmaticamente, Informação
• Aparecimento de novos tipos de “documentos”
• Necessidade de rever métodos de gestão de informação
• Desejo de troca de informação entre sistemas nas IDIs
7 de Maio de 2013
18º Webinar BAD
Em busca da Interoperabilidade
14
7 de Maio de 2013
18º Webinar BAD
15
Uniformização de IDIs
Modelo OAIS (Open Archival Information System)
Arquitetura standard para a construção de repositórios e arquivos digitais
Modelo para acesso aberto a informação a ser preservada a longo-termo
7 de Maio de 2013
16
18º Webinar BAD
Comunicação entre IDIs
IDIs não necessitam mais de estar de costas voltadas
IDI
Troca de Informação
IDI
Implementação de Protocolos de Comunicação
OAI – PMH
SWORD
(Open Archive Initiative – Protocol for Metadata Harvesting)
(Simple Web-service Offering Repository Deposit)
IDIs importam e exportam informação nestes standards
Providers e Harvesters
Auxiliam a comunicação e integração de software com agregadores de informação
7 de Maio de 2013
17
18º Webinar BAD
Pesquisa Federada
IDI
IDI
IDI
IDI
IDI
Ponto de
Acesso
- Um ponto de acesso
- Uma questão
- Resultados de procura
provenientes de várias portais
agregadores de informação
SRU/CQL
(Search Retrieval via URL / Context Query Language)
Protocolo para queries de procura sobre a internet
CQL define a sintaxe para a escrita de queries
7 de Maio de 2013
18º Webinar BAD
18
Dados, Informação e Conhecimento
7 de Maio de 2013
18º Webinar BAD
19
Dados, Informação e Conhecimento
Dados
Entidades sintáticas (valores, quantidades, etc.) passíveis de serem
“medidas” e processados
Informação
Relacionamento semântico entre os dados atribuindolhes um significado
Conhecimento
Estruturação e organização da
informação adquirida como resultado
de um processo cognitivo
7 de Maio de 2013
18º Webinar BAD
20
Informação, o segredo!
A Associação Portuguesa de Editores e Livreiros
agradeceu, esta sexta-feira, a Pinto da Costa a oferta
do estádio do Dragão para realizar a Feira do Livro do
Porto. Apesar da proposta, o evento continua
suspenso.
notícia retirada do JN a 2013-05-03
7 de Maio de 2013
18º Webinar BAD
21
Informação, o segredo!
A Associação Portuguesa de Editores e Livreiros
agradeceu, esta sexta-feira, a Pinto da Costa a oferta
do estádio do Dragão para realizar a Feira do Livro do
Porto. Apesar da proposta, o evento continua
suspenso.
notícia retirada do JN a 2013-05-03
7 de Maio de 2013
22
18º Webinar BAD
Informação, o segredo!
<associação>
A Associação Portuguesa de Editores e Livreiros
<data>
<pessoa>
agradeceu, esta sexta-feira, a Pinto da Costa a oferta
<estádio>
<evento>
do estádio do Dragão para realizar a Feira do Livro do
<cidade>
Porto. Apesar da proposta, o evento continua
suspenso.
notícia retirada do JN a 2013-05-03
7 de Maio de 2013
18º Webinar BAD
23
Informação, o segredo!
Anotação
(interna)
de documentos
Inscrição de notas, comentários ou marcas num
documento que ajudam a clarificar/normalizar o
seu conteúdo.
Marcas dão significado aos dados
7 de Maio de 2013
18º Webinar BAD
24
Informação, o segredo (2)!
A Associação Portuguesa de Editores e Livreiros agradeceu,
esta sexta-feira, a Pinto da Costa a oferta do estádio do
Dragão para realizar a Feira do Livro do Porto. Apesar da
proposta, o evento continua suspenso.
Título = “Feira do Livro continua suspensa após
proposta de Pinto da Costa”
Data = “2013-05-03”
Tipo = “Texto”
Criador = “Jornal de Notícias”
Formato = “text/plain”
Tema = “Cultura”
Identificador = “http://goo.gl/i1SS5”
Descrição = “Notícia sobre a realização da Feira
do Livro do Porto em 2013”
Editor = “Jornal de Notícias”
Língua = “PT”
7 de Maio de 2013
18º Webinar BAD
25
Informação, o segredo (2)!
Enriquecimento da informação
com
Anotação (externa) de documentos usando
Metadados
Dados sobre os dados
Definem a semântica dos dados externos ao documento
... que não são expressos no conteúdo do documento ...
7 de Maio de 2013
18º Webinar BAD
Metadados e os Documentos
26
7 de Maio de 2013
27
18º Webinar BAD
Documentos
O que é considerado um documento?
Os tipos de documento são variados!
Fotografia
Livro
Página Web
Artigo Científico
Passaporte
Certificado
Filme
Relatório
Biografia
Fatura
Gravação Áudio
Cada tipo pode ser descrito de várias formas...
... depende, claramente, do contexto e da sua utilização
7 de Maio de 2013
18º Webinar BAD
28
Metadados do Documento
Três grandes tipos de metadados...
Descritivos
Descrevem os dados essenciais do recurso.
E.g., título, autor, etc.
Administrativos
Descrevem dados administrativos que ajudam na manutenção do documento.
E.g., a data de criação, como foi a criação, etc.
Estruturais
Descrevem como o recurso é composto.
E.g., ordenação de páginas, organização em sistema de ficheiros
7 de Maio de 2013
18º Webinar BAD
29
Esquemas de Metadados
Conjunto de metadados desenhado em específico para um dado propósito
ex. descrever um determinado relatório...
Tem, geralmente, um contexto de utilização associado!
Definem a semântica (e sintaxe) dos metadados e seus conteúdos
Podem completar-se, descrevendo um documento para vários propósitos
7 de Maio de 2013
18º Webinar BAD
30
Esquemas de Metadados
- Dublin Core – para simples descrição de um documento
- TEI (Text Encoding Initiative) – para anotação de textos eletrónicos (e.g., romances)
- METS (Metadata Encoding and Transmission Standard) – para expressar estrutura
de um objeto digital assim como para o descrever e localizar os ficheiros que o
compõem
- EAD (Encoded Archival Description) – para anotar dados em inventários ou índices
em linha
- ISAD(g) (General International Standard Archival Description ) – guias para
descrever arquivos
- LOM (Learning Object Metadata) – para fomentar o uso de recursos didáticos
suportados por tecnologia
- CDWA (Categories for Description of Works of Art) – para descrever objetos
visuais como pinturas ou esculturas
7 de Maio de 2013
18º Webinar BAD
Uma questão de Semântica
31
7 de Maio de 2013
18º Webinar BAD
32
Nem só de pão vive o homem...
A anotação de documentos ajuda o humano a perceber com maior exatidão o
conteúdo e o próprio documento
Nesta perspetiva
As marcas de anotação por si só fornecem o significado ao valor marcado
E as relações semânticas que entre elas existem...
Porque (melhor ou pior) o humano conhece o domínio
MAS
As máquinas NÃO!!!
É necessário “ensinar-lhes” o domínio!
7 de Maio de 2013
18º Webinar BAD
33
Organização semântica da Informação
Ontologias
“Uma ontologia é um artefacto que define um
conjunto de conceitos, relações e axiomas para
um domínio de saber específico, representando e
organizando o conhecimento implícito
(de forma a
que um conjunto de sistemas cooperativos concordem e o
partilhem).”
Retirado, traduzido e adaptado de “Ontological Adaptive Integration Of Reverse Engineering Tools”
7 de Maio de 2013
18º Webinar BAD
34
Organização semântica da Informação
Ontologias
O = (C, R, A)
- C – Entidades da Ontologia
- CC – Conceitos (Ex: Mãe, Pessoa, Filho, Irmão)
- CI – Instâncias dos conceitos (Ex: Teresa, Nuno)
- R – Relações entre entidades da Ontologia
- RH – Relações taxonómicas/hierárquicas entre conceitos (Ex: Mãe ‘é_uma’
Pessoa)
- RI – Relações entre conceitos e Instâncias (Ex: Teresa ‘é_uma’ Mãe)
- RS – Relações não taxonómicas entre conceitos (Ex: Mãe ‘tem_filho’ Filho)
- RP – Propriedades dos conceitos (Ex: Pessoa ‘data_de_nascimento’ 1986-02-26)
- A – Axiomas. Dão consistência à ontologia e são usados para inferir novo
conhecimento (Ex: “Se dois Filho têm a mesma Mãe então são Irmão”)
7 de Maio de 2013
18º Webinar BAD
35
Ontologias…Metadados… Cooperação?
Cooperação
Só haverá cooperação entre sistemas (de arquivos) se todos falarem a mesma língua!
XML é a língua franca para a interoperabilidade (de informação)!
Mas o conteúdo em XML pode ser interpretado de várias maneiras!
Metadados
Mas os metadados têm um significado bem definido!
No entanto o significado depende do domínio específico...
Ontologias
As ontologias descrevem um domínio!
Os metadados (conceitos nas ontologias) podem ser relacionados de
forma unívoca numa tal estrutura...
Uma vez aceites as relações inter-metadados , os sistemas podem
cooperar porque se percebem mutuamente!
7 de Maio de 2013
Os nossos Projetos
18º Webinar BAD
36
7 de Maio de 2013
18º Webinar BAD
37
Metadados na Pesquisa Semântica
De documentos Jurídicos!
• Criação de Ontologia para uma área jurídica
• Levantamento de metadados associados a documentos
dessa área
• Relacionamento entre metadados e conceitos ontológicos
• Implementação da pesquisa de documentos baseada na
ontologia
• Benefícios da pesquisa ontológica na obtenção de
informação jurídica
7 de Maio de 2013
18º Webinar BAD
38
Povoamento Automático de Ontologias
A partir da anotação de documentos Jurídicos!
• Área jurídica do direito de família
• Criação de Ontologia para representar conhecimento sobre a área
• Utilização de processamento de linguagem natural para
reconhecer padrões e anotar textos jurídicos
• Informação anotada usada para povoar ontologias
• Diminuição dos custos e esforços na construção de bases de
conhecimento
7 de Maio de 2013
18º Webinar BAD
39
Geração Automática de Museus Virtuais
A partir da anotação de espólio de arquivos e museus
• Base de dados de espólio (de museus e arquivos) anotado
• Ontologia geral para descrever o conhecimento anotado
• Construção de salas de exposição virtuais para aprendizagem a
partir de especificações sobre a vistas da ontologia e os
documentos anotados
• Navegação dirigida pela semântica
• Uso de browsers semânticos
• Projeto CoNVEM / Geny
7 de Maio de 2013
18º Webinar BAD
40
Geração Automática de Museus Virtuais
Geny
Space
Ontology
Central
Ontology
GenySL
Specifications
SemDOR
Assets
Contribution
Navigation
and Feedback
Generates
Semantic
Contribution
Visitor's knowledge
Contribution
Learning
Spaces
Navigation
and Feedback
7 de Maio de 2013
18º Webinar BAD
41
Geração Automática de Museus Virtuais
• Projeto siME
• Museu da Emigração e das Comunidades (Fafe)
7 de Maio de 2013
18º Webinar BAD
42
Geração Automática de Museus Virtuais
7 de Maio de 2013
18º Webinar BAD
43
Navegação Conceptual sobre Informação
• Projeto Génio
• Espólio do Museu da Emigração e das Comunidades (Fafe)
• Ontologia descreve o fenómeno migratório
• Navegação conceptual sobre a informação
• navegação entre os objectos, mantendo a relação lógica definida pela
ontologia
http://epl.di.uminho.pt/~ritafaria/MEC/index.php
7 de Maio de 2013
18º Webinar BAD
44
7 de Maio de 2013
18º Webinar BAD
45
Navegação Conceptual sobre Informação
7 de Maio de 2013
18º Webinar BAD
46
Navegação Conceptual sobre Informação
7 de Maio de 2013
18º Webinar BAD
47
Navegação Conceptual sobre Informação
7 de Maio de 2013
Outros Projetos
18º Webinar BAD
48
7 de Maio de 2013
Qwiki
18º Webinar BAD
49
7 de Maio de 2013
Google Art Project
18º Webinar BAD
50
7 de Maio de 2013
Sumário
18º Webinar BAD
51
7 de Maio de 2013
18º Webinar BAD
52
Sumário
Tim Berners-Lee adaptou-se à (na altura) nova tendência da
comunicação entre computadores e revolucionou-a!
Tal revolução levou à criação de espaços partilhados de informação,
acessíveis por todo o mundo!
A Web continuou a evoluir ao ponto de se estar agora a preparar para a sua
terceira fase, onde as máquinas irão compreenderão o conteúdo dos recursos
documentais...
As IDIs e os seus profissionais também evoluíram com o tempo, adaptando-se às
demandas da sociedade e à própria evolução tecnológica!
A noção de anotações e metadados como o segredo para a obtenção de informação,
e o seu relacionamento semântico com base em ontologias, parece estar em
consonância com a noção semântica que a web quer para si.
A uniformização de arquivos como repositórios de Informação, aumentam a
possibilidade de cooperarem, promovendo a troca de informação (em tempos
custodiada)
7 de Maio de 2013
18º Webinar BAD
53
ORGANIZAÇÃO E REPRESENTAÇÃO DA
INFORMAÇÃO
Arquivos, Bibliotecas e Museus
nuno oliveira
Pedro Rangel Henriques
Universidade do Minho
Download

Organização e Representação da Informação (Arquivos, Bibliotecas